大模型论文速读(208/4067)

周报: 2025-09-29 至 2025-10-05 | 生成时间: 2025-11-05

研究全貌

本批次Finance领域共收录2篇论文,研究方向主要集中在大语言模型的行为安全金融对话系统的专业化提升。前者关注LLM在金融决策任务中是否可能表现出类似人类的非理性行为,如赌博成瘾特征;后者聚焦于构建具备常识推理与情感对齐能力的金融对话AI。当前热点问题是如何在复杂金融场景中实现模型行为的可控性与响应的专业性。整体趋势显示,研究正从单纯的功能实现转向对模型认知机制的深入理解与安全可控设计,强调AI在高风险金融应用中的可靠性与人性化。

重点方法深度解析

本批次中,两篇论文分别从风险行为建模与专业对话优化两个维度提出了具有启发性的方法,其中尤以《Can Large Language Models Develop Gambling Addiction?》和《Fin-Ally: Pioneering the Development of an Advanced, Commonsense-Embedded Conversational AI for Money Matters》最具代表性。

《Can Large Language Models Develop Gambling Addiction?》 URL 首次系统性验证了LLM在模拟赌博任务中可能表现出“类成瘾”行为。其核心创新在于将人类心理学中的认知偏差(如控制幻觉、赌徒谬误、追损行为)迁移到LLM行为分析中,并提出可量化的“非理性指数”来评估模型决策的偏离程度。技术上,作者采用稀疏自编码器(Sparse Autoencoder)对模型内部激活进行解码,识别出控制风险偏好的因果神经特征,并通过“激活补丁”实验验证其因果性——即修改特定神经元可显著改变风险偏好。在自建的老虎机模拟环境中,模型在高自主性设置下破产率显著上升,证明其行为并非仅由提示词驱动,而是内化了决策机制。该方法适用于金融自动化交易、AI投顾等高风险决策系统的安全评估与干预设计。

《Fin-Ally: Pioneering the Development of an Advanced, Commonsense-Embedded Conversational AI for Money Matters》 URL 提出Fin-Solution 2.0框架,核心是构建具备常识推理与情感对齐能力的金融对话系统Fin-Ally。其创新点在于融合COMET-BART生成常识上下文,并通过直接偏好优化(DPO)对齐专业、礼貌的响应风格。Fin-Ally基于新构建的Fin-Vault数据集(1,417轮多轮金融对话)进行训练,支持预算规划、支出追踪等复杂任务。技术实现上,COMET-BART用于扩展用户输入的常识背景(如“失业”隐含“需紧急储蓄”),DPO则利用人工标注的偏好对优化生成结果,避免轻率或不专业回应。在多个主流LLM上的实验表明,该方法显著提升响应的专业性与一致性。该系统适用于银行客服、个人理财助手等需要高信任度交互的场景。

两篇工作形成互补:前者警示LLM在金融任务中的潜在风险,后者提供提升专业性的解决方案,共同指向“安全、可信、人性化”的金融AI发展方向。

实践启示

这两项研究为大模型在金融场景的应用提供了双重启示:既要防范模型的非理性行为,也要提升其专业服务能力。对于交易类系统,建议引入行为监控机制,借鉴“非理性指数”评估模型决策稳定性;对于客户服务类应用,应优先采用常识增强+DPO对齐的训练范式,提升响应质量。可落地的建议包括:1)在金融AI部署前进行认知偏差压力测试;2)构建领域专属对话数据集并采用DPO优化;3)结合稀疏自编码器进行关键神经元监控。实现时需注意:行为分析需控制实验环境的一致性,而DPO训练需保证偏好标注的专业性与一致性,避免引入新偏差。

Can Large Language Models Develop Gambling Addiction? 📄 Link 🤖 Kimi 💬 GPT
Lee, Shin, Lee, Kim
本文系统研究了大语言模型是否可能表现出类似人类赌博成瘾的行为模式,结合认知心理学理论与神经机制分析,从行为和神经两个层面验证了LLM在赌博任务中展现出幻觉控制、赌徒谬误和追损/追赢等成瘾特征。研究设计严谨,提出了可量化的‘非理性指数’,并通过稀疏自编码器与激活补丁技术揭示了驱动风险决策的因果神经特征,为AI安全在金融等高风险场景的应用提供了重要洞见。方法创新性强,证据充分,但部分术语表述和结构可进一步优化。
8.4
Fin-Ally: Pioneering the Development of an Advanced, Commonsense-Embedded Conversational AI for Money Matters 📄 Link 🤖 Kimi 💬 GPT
Das, Mathur, Sharma, Saha, Pasupa, Maurya
本文提出了Fin-Solution 2.O,包含金融领域首个融合常识推理与偏好优化的对话系统Fin-Ally,以及高质量多轮对话数据集Fin-Vault。方法创新性强,结合COMET-BART增强常识推理,并引入DPO提升响应对齐性;实验设计充分,涵盖多种主流模型的消融与对比分析,且数据与代码已开源。尽管叙述清晰度尚有提升空间,但整体为金融科技领域提供了可复现、高价值的解决方案。
8.4

研究全貌

本批次17篇SFT领域论文聚焦于监督微调的泛化能力提升、参数高效优化、数据构建策略三大方向。研究普遍关注如何在有限资源下提升模型在复杂任务中的决策对齐性、鲁棒性与泛化能力。当前热点问题集中在:SFT是否真如普遍认为的“仅记忆、不泛化”?如何通过数据设计或训练机制弥补其与强化学习(RL)的差距?整体趋势显示,研究正从“单纯微调权重”转向“机制级优化”,强调训练目标、数据结构、内部激活模式等深层因素对模型行为的影响,推动SFT向更智能、更可控的方向演进。

重点方法深度解析

《Debunk the Myth of SFT Generalization》 https://arxiv.org/abs/2510.00237
该论文挑战了“SFT无法泛化”的主流观点,指出其泛化失败主要源于固定提示模板导致的语义固化(frozen-prompt artifacts)。作者提出通过提示多样性(prompt diversity)和思维链监督(CoT)重构训练数据,使模型学习任务本质而非模板模式。实验在Sokoban和数学推理任务中表明,该方法在未见指令变体和更高难度任务上均显著提升泛化能力,甚至媲美RL方法。适用于需快速部署、避免RL复杂训练的场景,尤其适合指令多变的决策任务。

《One-Token Rollout: Guiding Supervised Fine-Tuning of LLMs with Policy Gradient》 https://arxiv.org/abs/2509.26313
该工作提出One-Token Rollout(OTR),将SFT与策略梯度结合,在token级别模拟on-policy学习。其核心是将每个token生成视为一步RL,通过蒙特卡洛采样候选token并以真实标签提供奖励信号,实现“静态数据动态化”。在数学、代码等任务上,OTR显著优于标准SFT,且缓解灾难性遗忘。该方法适合对泛化要求高但难以部署RL的场景,为SFT注入RL优势提供了轻量级路径。

《IA2: Alignment with ICL Activations Improves Supervised Fine-Tuning》 https://arxiv.org/abs/2509.22621
IA2提出通过自蒸馏对齐上下文学习(ICL)的激活模式来提升SFT模型质量。其发现ICL与SFT内部机制不同,遂在SFT前引入激活对齐阶段,使模型内部计算更接近ICL的推理模式。在12个基准上,IA2显著提升准确率与校准性,尤其在小样本场景。适用于需高可靠性输出的低资源微调任务,是连接ICL与SFT机制的桥梁性工作。

三者共性在于从数据或机制层面弥合SFT与高级对齐方法的差距,但路径不同:Debunk强调数据多样性,OTR引入动态学习机制,IA2则关注内部表示对齐,代表了SFT优化的三种前沿范式。

实践启示

这些研究表明,SFT的潜力远未被充分挖掘,通过精心设计数据与训练机制,可实现接近甚至超越RL的泛化能力。对于应用开发,建议:在低资源或需快速迭代场景,优先采用提示多样性与CoT增强的SFT;在高可靠性要求任务中,尝试IA2激活对齐或OTR机制以提升输出质量。落地时需注意:数据多样性必须覆盖任务语义本质,避免引入噪声;OTR需控制采样开销,建议仅在关键token步骤启用。总体应转变“SFT=简单微调”的认知,将其视为可深度优化的对齐基础。

Teaching AI to Handle Exceptions: Supervised Fine-Tuning with Human-Aligned Judgment 📄 Link 🤖 Kimi 💬 GPT
DiSorbo, Ju, Aral
本文系统研究了大语言模型在处理现实决策场景中例外情况时与人类判断的偏差,发现现成模型因严格遵循规则而缺乏灵活性。作者评估了三种对齐方法,发现基于人类解释的监督微调(而非仅标签)能显著提升模型在例外处理上的决策对齐性,并展现出跨场景的迁移能力。研究设计严谨,实验充分,揭示了对齐AI决策需关注‘如何决策’而不仅是‘做出何种决策’,对构建可靠代理型AI具有重要理论与实践意义。
8.7
IA2: Alignment with ICL Activations Improves Supervised Fine-Tuning 📄 Link 🤖 Kimi 💬 GPT
Mishra, Khashabi, Liu
本文提出了IA2(ICL激活对齐)方法,通过在监督微调前对模型进行自蒸馏式激活对齐,使其内部计算机制更接近上下文学习(ICL),从而显著提升小样本场景下SFT模型的准确性和校准性。方法创新性强,基于对ICL与SFT内部机制差异的深入分析,实验设计严谨,覆盖12个基准和多个模型家族,验证充分。作者开源了全部代码,增强了可复现性。叙述整体清晰,但部分技术细节表达可进一步优化。
8.5
VisCoder: Fine-Tuning LLMs for Executable Python Visualization Code Generation 📄 Link 🤖 Kimi 💬 GPT
Ni, Nie, Zou, Yue, Chen
本文提出了VisCoder,一种基于大规模指令微调数据集VisCode-200K的Python可视化代码生成模型。该数据集包含20万以上经执行验证的可视化代码样本和多轮纠错对话,显著提升了模型在可执行性和视觉语义对齐方面的能力。实验表明VisCoder在多个基准上超越主流开源模型,甚至接近GPT-4o-mini,尤其在自调试模式下表现优异。方法创新性强,实验设计严谨,数据开源,具有较高实用价值。
8.5
Extract-0: A Specialized Language Model for Document Information Extraction 📄 Link 🤖 Kimi 💬 GPT
Godoy
本文提出了Extract-0,一个专用于文档信息抽取的70亿参数语言模型,通过合成数据生成、LoRA微调和基于语义相似度的强化学习,在仅修改0.53%参数的情况下,性能超越GPT-4.1等更大规模的通用模型。方法创新性强,实验设计严谨,且代码与数据完全开源,具备良好的可复现性;叙述整体清晰,但部分技术细节表达可进一步优化。
8.5
Paired by the Teacher: Turning Unpaired Data into High-Fidelity Pairs for Low-Resource Text Generation 📄 Link 🤖 Kimi 💬 GPT
Lu, Thebaud, Moro-Velazquez, Dehak, Villalba
本文提出了名为“Paired by the Teacher”(PbT)的两阶段师生框架,通过中间表示(IR)将无配对数据转化为高质量的输入-输出对,有效解决了低资源文本生成中缺乏标注数据的问题。方法创新性强,实验设计充分,在五个基准任务和跨域场景下均显著优于现有合成方法,且在人类评估中表现出更优的风格一致性和忠实性。尽管叙述清晰度尚有提升空间,但整体是一项高质量、具有实际应用价值的研究。
8.5
Beyond Log Likelihood: Probability-Based Objectives for Supervised Fine-Tuning across the Model Capability Continuum 📄 Link 🤖 Kimi 💬 GPT
Li, Qiu, Chen, Ji, Tong
本文系统研究了监督微调(SFT)中超越负对数似然(NLL)的概率型训练目标,提出了“模型能力连续体”的新视角,揭示了不同目标在模型强、弱、中间能力阶段的表现反转现象。通过在7个模型、14个基准、3个领域的广泛实验与理论分析,证明了先验倾向性目标在模型强时更优,而NLL在模型弱时占优。研究兼具理论深度与实践指导意义,方法创新性强,证据充分,代码已开源。
8.5
Shadow-FT: Tuning Instruct Model via Training on Paired Base Model 📄 Link 🤖 Kimi 💬 GPT
Wu, Yang, Li, Hu, Wu, Wong, Yang
本文提出了Shadow-FT框架,通过在配对的基础模型(Base)上进行微调,并将权重更新直接迁移到指令模型(Instruct)中,有效解决了直接微调Instruct模型时性能提升有限甚至退化的问题。方法创新性强,实验充分,在19个涵盖数学、代码和推理的基准上验证了有效性,且代码与模型已开源。该方法无需额外参数,实现简单,具备良好的通用性和扩展性,可应用于多模态大模型和DPO对齐等场景。
8.4
SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature 📄 Link 🤖 Kimi 💬 GPT
Wadden, Shi, Morrison, Li, Naik, Singh, Barzilay, Lo, Hope, Soldaini, Shen, Downey, Hajishirzi, Cohan
本文提出了SciRIFF,一个面向科学文献理解的大规模指令微调数据集,涵盖54个任务、13.7万条指令样本,聚焦信息抽取、摘要、问答、主张验证和分类等任务,具有长上下文输入和结构化输出的特点。作者进一步提出高效的微调策略,基于通用指令模型Tülu V2构建出SciTülu模型,在科学任务上显著提升性能,尤其在7B模型上效果突出,同时保持通用能力。数据、模型和代码均已开源,对科研社区具有重要价值。
8.4
Data Uniformity Improves Training Efficiency and More, with a Convergence Framework Beyond the NTK Regime 📄 Link 🤖 Kimi 💬 GPT
Wang, Gu
本文提出数据均匀性可提升训练效率,并建立了一个超越NTK框架的收敛理论。通过最小数据点间距h_min刻画数据分布,理论证明更均匀的数据分布能加快梯度下降收敛并降低逼近误差。作者还提出了适用于Transformer等复杂结构的通用收敛分析框架,结合多项式广义光滑性和局部松弛耗散性,无需Lipschitz光滑性假设。实验在多种模型和优化器下验证了基于最大化数据对距离的采样策略的有效性,代码与数据已开源,整体工作理论扎实、实验充分,具有较强创新性和实用价值。
8.4
Dynamic Orthogonal Continual Fine-tuning for Mitigating Catastrophic Forgettings 📄 Link 🤖 Kimi 💬 GPT
Zhang, Wei, Sun
本文提出了一种名为动态正交持续微调(DOC)的新方法,用于缓解大语言模型在持续学习中的灾难性遗忘问题。作者通过分析发现,功能方向在微调过程中的漂移是现有正则化方法失效的关键原因,并据此提出利用在线PCA动态追踪和更新历史功能方向,结合正交梯度约束来减少新旧任务间的干扰。实验在多个主流LLM持续学习基准上验证了方法的有效性,性能优于包括O-LoRA在内的现有最优方法,且代码已开源,研究完整、证据充分,具有较强的创新性和实用价值。
8.4
Evolution Strategies at Scale: LLM Fine-Tuning Beyond Reinforcement Learning 📄 Link 🤖 Kimi 💬 GPT
Qiu, Gan, Hayes, Liang, Meyerson, Hodjat, Miikkulainen
本文首次成功将进化策略(ES)扩展到大规模语言模型(LLM)的全参数微调中,突破了传统认为ES无法扩展至十亿级参数的局限。实验表明,ES在样本效率、跨模型鲁棒性、抗奖励欺骗、训练稳定性等方面显著优于当前主流的强化学习(RL)方法,如PPO和GRPO。方法设计简洁高效,开源代码支持复现,为LLM后训练提供了全新的参数空间优化范式。
8.4
SynthPert: Enhancing LLM Biological Reasoning via Synthetic Reasoning Traces for Cellular Perturbation Prediction 📄 Link 🤖 Kimi 💬 GPT
Phillips, Martell, Misra, Stoisser, Prada-Medina, Donovan-Maiye, Märtens
本文提出了SynthPert,一种通过合成推理链增强大语言模型在细胞扰动预测中生物学推理能力的新方法。该方法利用前沿模型生成带质量筛选的合成思维链,对较小的LLM进行监督微调,在PerturbQA基准上实现了最先进的性能,并展现出优异的跨细胞类型泛化能力(在未见RPE1细胞中达到87%准确率)。研究发现,即使合成推理链部分不准确,其结构本身也能有效蒸馏生物学知识,且仅用2%的高质量数据即可实现显著提升。整体而言,该工作创新性强,实验证据充分,为领域特定的LLM增强提供了高效、可解释的新范式。
8.4
Rethinking Parameter Sharing for LLM Fine-Tuning with Multiple LoRAs 📄 Link 🤖 Kimi 💬 GPT
Ban, Ji
本文提出了一种针对大语言模型多LoRA微调的参数共享新机制,通过深入分析LoRA中A和B矩阵的学习动态,发现A矩阵的相似性主要源于初始化而非共享知识,而B矩阵在知识迁移中起主导作用。基于此,作者提出了ALoRA(多任务场景)和Fed-ALoRA(联邦学习场景),通过共享B矩阵而非A矩阵,实现了更有效的知识迁移和更高的参数效率。实验覆盖多任务与联邦设置,在多个NLP基准上验证了方法的有效性,且代码已开源。整体创新性强,证据充分,方法具有良好的通用性和迁移潜力。
8.4
Debunk the Myth of SFT Generalization 📄 Link 🤖 Kimi 💬 GPT
Lin, Sang, Wang, Zhang
本文系统性地重新评估了监督微调(SFT)在决策任务中的泛化能力,挑战了‘SFT仅记忆、RL才泛化’的主流观点。作者发现SFT表现不佳的主要原因在于训练时使用固定提示模板(frozen-prompt)导致模型对指令变化敏感,而通过引入提示多样性(prompt diversity)和思维链监督(CoT),即可显著提升SFT在指令变体和难度变体上的泛化性能,甚至媲美或超越RL方法。研究强调数据设计的重要性,提出了一种简单、稳定且高效的纯监督方案,为SFT与RL的权衡提供了新视角。实验设计严谨,涵盖多个任务与模型,且代码数据完全开源,具有很强的可复现性。
8.4
MetaLint: Generalizable Idiomatic Code Quality Analysis through Instruction-Following and Easy-to-Hard Generalization 📄 Link 🤖 Kimi 💬 GPT
Naik, Baghel, Govindarajan, Agrawal, Fried, Rose
本文提出了MetaLint,一种通过指令跟随和由易到难泛化实现可迁移的代码质量分析新框架。该方法利用合成数据进行指令微调,使模型能够根据高层规范检测和定位未见过的代码习语问题,尤其在难以被传统linter捕获的复杂PEP规范上表现优异。实验设计严谨,构建了具有挑战性的基准测试,验证了模型在跨习语泛化、抗记忆化和适应新规范方面的能力。方法创新性强,证据充分,具备良好的通用性和实际应用潜力。
8.4
LoRA-MGPO: Mitigating Double Descent in Low-Rank Adaptation via Momentum-Guided Perturbation Optimization 📄 Link 🤖 Kimi 💬 GPT
Chang, Guo, Chang, Wu
本文提出了一种名为LoRA-GGPO的新方法,通过梯度引导的随机扰动优化来缓解LoRA微调中的‘双下降’现象。该方法结合梯度范数与权重范数生成定向扰动,引导模型收敛到更平坦的极小值,从而提升泛化能力。在自然语言理解与生成任务上的大量实验表明,LoRA-GGPO显著优于标准LoRA及其多种先进变体,并有效缓解了性能波动问题。方法创新性强,实验充分,且代码已开源,具备良好的实用性和推广价值。
8.4
One-Token Rollout: Guiding Supervised Fine-Tuning of LLMs with Policy Gradient 📄 Link 🤖 Kimi 💬 GPT
Ming, Wu, Hu, He, Yu
本文提出了一种名为One-Token Rollout(OTR)的新型大语言模型微调算法,通过将监督微调(SFT)与策略梯度方法结合,从数据角度模拟强化学习中的on-policy学习过程。该方法在每个token生成步骤中进行蒙特卡洛rollout,利用真实标签提供奖励信号,从而将静态的离线数据转化为动态的在线策略信号。实验表明,OTR在数学推理、代码生成和通用推理等多个高难度基准上 consistently 优于标准SFT,且能更好保留预训练知识,缓解灾难性遗忘。方法创新性强,实验充分,为SFT与RL之间的泛化差距提供了新的数据视角解释。
8.4

研究全貌

本领域共收录若干篇RLHF相关论文,涵盖两个研究批次,主要聚焦于奖励建模优化偏好数据鲁棒性提升训练与推理效率加速多目标对齐以及测试时个性化五大方向。奖励建模研究从准确率转向方差、动态感知等更细粒度的优化维度;偏好学习关注标注噪声、异质性与动态反馈机制;效率优化则贯穿训练(如PPO流水线)与推理(如测试时对齐)。当前热点在于如何在非稳态、多冲突、低资源条件下实现高效、个性化、可解释的对齐。整体趋势正从“静态离线、单目标、高成本”的传统范式,向“动态在线、多维协同、系统级优化”的新一代对齐体系演进。

重点方法深度解析

LCPO:潜在集体偏好优化 [2505.23761]
针对人类偏好中的标注噪声与群体异质性,LCPO提出用EM算法建模“潜在共识”,为每个样本学习可靠性权重,动态调整损失贡献。其技术核心是隐变量建模与迭代优化,理论证明可收敛至真实噪声分布。在Mistral和Llama-3上,LCPO提升DPO/IPO在AlpacaEval 2上最高7.0%。适用于存在争议性标注的对齐任务,是提升鲁棒性的“即插即用”模块。

T-POP:测试时个性化对齐 [2509.24696]
解决新用户冷启动问题,T-POP在不解冻模型的前提下,通过在线dueling bandits机制动态学习用户偏好奖励函数,指导生成路径选择。其创新在于将在线学习与解码过程融合,仅需少量交互即可超越微调方法。在多轮对话中表现优异,适合客服、教育等需快速个性化响应的场景。

OPPO:PPO训练流水线重叠优化 [2509.25762]
针对PPO中RM与策略模型流水线阻塞问题,OPPO提出步内重叠(RM提前prefill)与步间重叠(延迟长尾响应)机制,实现1.8–2.8倍加速,GPU利用率提升2.1倍。轻量级设计,仅需少量代码修改,特别适用于长文本生成与高延迟RM场景。

2-GRPO:极简GRPO实现 [2510.00977]
揭示GRPO本质为对比学习,提出仅用两个rollout的2-GRPO,计算开销降低70%,性能媲美16-rollout版本。适合资源受限环境,工程落地价值极高。

这些方法可组合使用:LCPO提升数据质量,2-GRPO或OPPO加速训练,T-POP在推理端实现个性化,构成“训练鲁棒化→训练高效化→推理个性化”的完整闭环。

实践启示

对大模型应用开发而言,RLHF已不仅是训练技术,更是涵盖训练、部署、交互的系统工程。建议:

  • 通用对齐任务:采用LCPO增强数据鲁棒性,结合2-GRPO或OPPO提升训练效率;
  • 个性化场景:部署T-POP实现测试时适应,避免频繁微调;
  • 多目标需求:可引入OrthAlign进行梯度解耦,避免目标干扰。

可落地组合:LCPO + 2-GRPO + T-POP,兼顾鲁棒性、效率与个性化。实现时注意:

  • 监控奖励方差而非仅准确率;
  • 在线学习需设计低摩擦用户反馈机制;
  • 正交优化依赖稳定梯度,建议配合裁剪与归一化。
    未来方向将是“轻量、动态、可控”的端到端对齐系统,推动RLHF从实验室走向真实世界。
What Makes a Reward Model a Good Teacher? An Optimization Perspective 📄 Link 🤖 Kimi 💬 GPT
Razin, Wang, Strauss, Wei, Lee, Arora
本文从优化角度研究了奖励模型在基于人类反馈的强化学习(RLHF)中的作用,提出奖励方差是影响优化效率的关键因素,而不仅仅是准确性。理论证明低奖励方差会导致目标函数平坦,从而显著减缓训练速度,即使奖励模型完全准确也可能表现不佳。实验在多达8B参数的模型上验证了理论,展示了奖励方差、准确性和奖励最大化速率之间的权衡。研究揭示了当前奖励模型评估范式的局限性,具有重要理论和实践意义。
8.9
Rethinking Reward Models for Multi-Domain Test-Time Scaling 📄 Link 🤖 Kimi 💬 GPT
Lee, Lee, Park, Kang, Baek, Kim, Wagner, Jin, Lee, Bocklet, Wang, Fu, Hwang, Bian, Song
本文对多领域测试时扩展中的奖励模型进行了系统性重新评估,提出了四种奖励模型变体的统一比较框架。研究发现,在多领域场景下,传统的细粒度过程奖励模型(PRM)并不优于结果奖励模型(ORM),尤其是生成式结果奖励模型(gORM)表现最稳健。论文结合理论分析与大规模实证,挑战了现有共识,并开源了代码、数据和模型,具有重要实践指导意义。
8.7
mR3: Multilingual Rubric-Agnostic Reward Reasoning Models 📄 Link 🤖 Kimi 💬 GPT
Anugraha, Hung, Tang, Lee, Wijaya, Winata
本文提出了mR3,一种大规模多语言、无评分标准依赖的奖励推理模型,覆盖72种语言,是目前奖励建模中语言覆盖最广的工作。作者系统研究了数据选择与课程学习策略,构建了高质量多语言数据集,并通过实验证明其模型在多语言评估任务中优于更大规模的模型(如GPT-OSS-120B),同时具备可解释性和跨语言推理能力。方法创新性强,实验充分,且代码、数据和模型均已开源,具有重要实践价值。
8.6
What Matters in Data for DPO? 📄 Link 🤖 Kimi 💬 GPT
Pan, Cai, Chen, Zhong, Wang
本文系统研究了直接偏好优化(DPO)中偏好数据的关键因素,理论与实验结合表明:选择响应的质量对DPO性能起主导作用,而拒绝响应的质量影响有限。研究进一步揭示对比度的作用主要体现在提升选择响应质量上,并证明在线DPO在固定选择响应时近似于监督微调。论文创新性强,证据充分,方法具有重要实践指导意义,叙述清晰。
8.6
Avoiding $\mathbf{exp(R_{max})}$ scaling in RLHF through Preference-based Exploration 📄 Link 🤖 Kimi 💬 GPT
Chen, Chen, Sun, Zhang
本文提出了一种名为SE-POPO的新型在线RLHF算法,首次实现了样本复杂度在奖励尺度上的多项式缩放,解决了现有方法因Bradley-Terry模型导致的exp(R_max)缩放瓶颈。方法创新性强,理论分析严谨,实验全面且代码开源,显著提升了RLHF在样本效率方面的上限,尤其适用于奖励分布极端偏斜的场景。
8.5
Improving the Language Understanding Capabilities of Large Language Models Using Reinforcement Learning 📄 Link 🤖 Kimi 💬 GPT
Hu, Somayajula, Pan, Xie
本文提出了一种基于强化学习(PPO)结合LoRA的方法,用于提升大语言模型在自然语言理解(NLU)任务上的性能。实验表明,该方法在GLUE和SuperGLUE基准上显著优于零样本、少样本提示以及监督微调方法,甚至超越了BERT-large等强基线模型。方法创新性强,实验充分,且代码开源,具有良好的可复现性与实际应用价值。
8.5
Learning to summarize user information for personalized reinforcement learning from human feedback 📄 Link 🤖 Kimi 💬 GPT
Nam, Wan, Liu, Lian, Ahnn, Jaques
本文提出了一种名为PLUS(Preference Learning Using Summarization)的新框架,通过强化学习联合优化用户偏好摘要生成与个性化奖励建模,实现了对多样化用户偏好的有效捕捉。方法创新性强,实验设计充分,在多个数据集上验证了其在个性化对齐任务中的优越性,并展示了摘要的可解释性与向GPT-4等强模型的零样本迁移能力。论文逻辑清晰,但部分表述可进一步精炼。
8.5
Humanline: Online Alignment as Perceptual Loss 📄 Link 🤖 Kimi 💬 GPT
Liu, Muennighoff, Ethayarajh
本文提出了一种基于前景理论的新型对齐方法Humanline,将人类感知概率偏差引入模型训练,解释了为何在线对齐优于离线对齐,并提出通用设计模式使离线方法可达到在线性能。方法创新性强,理论扎实,实验充分,显著缩小了离线与在线对齐的性能差距,在指令遵循和数学推理任务上均取得优异结果。
8.5
Hybrid Reward Normalization for Process-supervised Non-verifiable Agentic Tasks 📄 Link 🤖 Kimi 💬 GPT
Xu, Li, Xing, Zhang, Li, Shi
本文提出了一种面向非可验证性智能体任务的混合奖励归一化方法PPR,通过引入基于原则的过程奖励模型(PPRM)和奖励归一化策略(ReNorm),有效解决了长轨迹任务中稀疏奖励与信用分配难题。方法创新性强,实验充分,在多个领域实现了显著性能提升,并开源了代码与新构建的非可验证过程评测基准NVProcessBench,具有重要实践与研究价值。
8.5
TDRM: Smooth Reward Models with Temporal Difference for LLM RL and Inference 📄 Link 🤖 Kimi 💬 GPT
Zhang, Cai, Light, Hu, Yue, Tang
本文提出了TDRM方法,通过引入时序差分(TD)学习来提升大语言模型中奖励模型的时间一致性,从而改善强化学习训练和推理时的验证性能。该方法在多个模型和任务上显著提升了性能,尤其在数据效率方面表现突出,仅用2.5k数据即可达到基线50.1k的性能。创新性强,实验充分,代码开源,具备良好的可复现性和实际应用价值。
8.5
OPPO: Accelerating PPO-based RLHF via Pipeline Overlap 📄 Link 🤖 Kimi 💬 GPT
Yan, Yu, Yu, Zheng, Lai
本文提出了OPPO,一种通过流水线重叠加速PPO-based RLHF训练的轻量级、模型无关框架。方法创新地引入了步内重叠(流式传输token以重叠生成与评分阶段)和步间重叠(动态过提交并延迟长尾响应),有效缓解了多模型依赖和长尾延迟导致的训练低效问题。实验充分,在多个任务和模型规模上验证了1.8-2.8倍的加速效果和GPU利用率提升,且不损害收敛性。方法通用性强,可集成到现有框架,仅需少量代码修改,并初步展示对DPO等范式的适用性。
8.5
Latent Collective Preference Optimization: A General Framework for Robust LLM Alignment 📄 Link 🤖 Kimi 💬 GPT
Cao, Xu, Guang, Long, Bakker, Wang, Yu
本文提出了Latent Collective Preference Optimization(LCPO),一种用于鲁棒大语言模型对齐的通用框架。该方法通过期望最大化(EM)算法从含噪偏好数据中学习潜在的集体共识,动态调整每个样本的权重以减轻标注噪声的影响。作者还建立了偏好损失与概率模型之间的理论联系,使LCPO可作为元框架增强多种现有对齐算法。实验表明,LCPO在Mistral和Llama-3模型上显著提升了DPO、IPO、SimPO和CPO等方法在AlpacaEval 2和Arena-Hard上的表现,最高提升达7.0%。理论分析证明其能收敛至真实噪声水平,实验证实了该结论。整体而言,论文创新性强,证据充分,方法具有良好的通用性和实用价值。
8.4
Differential Information Distribution: A Bayesian Perspective on Direct Preference Optimization 📄 Link 🤖 Kimi 💬 GPT
Won, Lee, Hwang, Seo
本文从信息论角度提出“差异信息分布”(DID)的概念,为直接偏好优化(DPO)提供了新的理论解释。作者证明了当偏好数据编码了从参考策略到目标策略的差异信息时,DPO的对数比率奖励形式是唯一最优的,并揭示了其与策略间对数间隔排序之间的内在联系。此外,通过分析DID的熵,论文解释了日志似然位移(LLD)现象,并实证表明高熵DID有助于通用指令遵循,低熵DID则利于知识密集型问答。研究理论严谨,实验充分,具有较强的理论深度和实际指导意义。
8.4
The Anatomy of Alignment: Decomposing Preference Optimization by Steering Sparse Features 📄 Link 🤖 Kimi 💬 GPT
Ferrao, van der Lende, Lichkovski, Neo
本文提出了Feature Steering with Reinforcement Learning(FSRL)框架,通过在稀疏、可解释的特征空间中调控语言模型行为,实现透明且可审计的对齐方法。论文创新性强,理论分析扎实,实验设计合理,并结合因果分析揭示了偏好优化过程中模型更依赖风格特征而非诚实性等深层对齐概念的机制。代码开源,复现性强,为理解对齐过程提供了有力工具。
8.4
Language Models Can Learn from Verbal Feedback Without Scalar Rewards 📄 Link 🤖 Kimi 💬 GPT
Luo, Liu, Liu, Du, Lin, Chen, Lu, Pang
本文提出了一种名为反馈条件策略(FCP)的新方法,使语言模型能够直接从口头反馈中学习,而无需将其压缩为标量奖励。该方法将反馈视为生成条件信号,通过最大似然训练在离线数据上学习反馈-响应对,并引入在线自举机制进一步提升性能。实验表明,FCP在数学与通用推理任务上可媲美甚至超越基于标量奖励的强基线方法,且无需依赖验证器或数据过滤。方法创新性强,实验设计充分,代码开源,具备良好的可迁移性,但部分技术细节表述略显晦涩。
8.4
LLMs Are In-Context Bandit Reinforcement Learners 📄 Link 🤖 Kimi 💬 GPT
Monea, Bosselut, Brantley, Artzi
本文提出并验证了大语言模型(LLM)具备在上下文中通过强化学习(ICRL)从奖励信号中学习的能力。作者发现朴素的ICRL方法因缺乏探索而迅速退化,为此提出了一种通过随机化上下文构建来增强探索的Explorative ICRL算法,并进一步设计了计算更高效的Approximate ICRL近似方法。实验在多个分类任务上验证了方法的有效性,揭示了LLM在无监督标签、仅依赖奖励信号下的持续学习潜力。研究创新性强,实验充分,且代码数据开源,具有重要启发意义。
8.4
Reward Model Overoptimisation in Iterated RLHF 📄 Link 🤖 Kimi 💬 GPT
Wolf, Kirk, Musolesi
本文首次系统研究了迭代式RLHF中的奖励模型过优化问题,通过在AlpacaFarm基准上的受控实验,分析了偏好数据管理、奖励函数设计和策略初始化三个关键设计选择对过优化的影响。研究发现,随着迭代进行,奖励模型逐渐逼近真实偏好,过优化现象减弱,但性能增益递减;其中,跨轮次拼接偏好数据效果最佳,而从基础策略重新初始化策略最为稳健。论文方法严谨,实验充分,为构建更稳定的RLHF系统提供了实用指导。
8.4
Multiplayer Nash Preference Optimization 📄 Link 🤖 Kimi 💬 GPT
Wu, Huang, Xuan, Zhang, Xiao, Wan, Li, Hu, Xia, Leskovec, Choi
本文提出了多玩家纳什偏好优化(MNPO),将现有的两玩家纳什学习框架推广到多玩家博弈场景,以更好地建模复杂、非传递和异构的人类偏好。方法理论严谨,创新性强,实验设计全面,在多个指令遵循和推理基准上显著优于现有方法。代码已开源,具备良好的可复现性。尽管部分理论推导略显紧凑,但整体贡献突出,为大模型对齐提供了可扩展的新范式。
8.4
Alignment through Meta-Weighted Online Sampling: Bridging the Gap between Data Generation and Preference Optimization 📄 Link 🤖 Kimi 💬 GPT
Yang, Xu, Liu, Qiao, Geng
本文提出了一种名为MetaAPO的新型对齐框架,通过元加权在线采样动态耦合数据生成与模型训练,有效缓解了离线偏好数据与当前策略之间的分布不匹配问题。方法创新性强,实验设计充分,在多个主流评测基准上显著优于现有方法,同时降低了42%的在线标注成本。论文叙述较为清晰,但部分技术细节表达可进一步优化。
8.4
Group-Relative REINFORCE Is Secretly an Off-Policy Algorithm: Demystifying Some Myths About GRPO and Its Friends 📄 Link 🤖 Kimi 💬 GPT
Yao, Chen, Sun, Chen, Zhang, Pan, Li, Ding
本文提出了一种全新的视角,揭示了组相对REINFORCE本质上是一种隐式的离策略算法,打破了传统上将其视为纯在线策略方法的认知。通过第一性原理推导,作者建立了REINFORCE的离策略解释框架,并由此提炼出正则化更新和主动调整数据分布两大设计原则。该分析统一并重新解释了GRPO、OPMD和AsymRE等近期算法,澄清了重要性采样与裁剪的作用误区,并为启发式数据加权策略提供了理论依据。实验充分,代码开源,理论洞察深刻,对大模型强化学习算法设计具有重要指导意义。
8.4
T-POP: Test-Time Personalization with Online Preference Feedback 📄 Link 🤖 Kimi 💬 GPT
Qu, Zhang, Kong, Li, Shang, Wang, Ban, Qiu, Shu, Dai
本文提出了一种名为T-POP的新型测试时个性化方法,通过在线偏好反馈实现对大语言模型的实时个性化,有效解决了新用户冷启动问题。方法创新地结合了测试时对齐与对决_bandits_框架,在不微调模型参数的前提下,实现了高效、数据友好的个性化生成。实验充分,结果显著优于现有基线,验证了其快速适应能力和通用性。
8.4
The Era of Real-World Human Interaction: RL from User Conversations 📄 Link 🤖 Kimi 💬 GPT
Jin, Xu, Liu, Tao, Golovneva, Shu, Zhao, Li, Weston
本文提出了从真实人类交互中进行强化学习的新范式RLHI,通过用户引导重写和基于用户奖励两种方法,直接利用野生对话数据实现个性化对齐。方法创新性强,实验设计充分,在用户个性化、指令遵循和推理任务上均取得显著提升;证据充分,但叙述清晰度有提升空间。
8.4
UniAPL: A Unified Adversarial Preference Learning Framework for Instruct-Following 📄 Link 🤖 Kimi 💬 GPT
Qian, Zhang, Wang, An, Zheng, Wen, Gao, Dai, Wu
本文提出了统一对抗偏好学习框架UniAPL,将监督微调与强化学习统一为单阶段对齐优化问题,通过对抗性判别器桥接专家分布与策略分布,有效缓解分布失配问题。方法创新性强,理论分析深入,实验充分且结果显著,在多个指令跟随任务上超越强基线甚至教师模型。表达整体清晰,但部分技术细节可进一步优化。
8.4
Simultaneous Multi-objective Alignment Across Verifiable and Non-verifiable Rewards 📄 Link 🤖 Kimi 💬 GPT
Shen, Xia, Chang, Ammanabrolu
本文提出了一种面向多目标对齐的统一框架,能够同时处理可验证奖励(如数学正确性)、不可验证的主观偏好(如价值观)和复杂交互场景(如AI辅导对话)。通过标准化过程奖励模型(PRM)训练、引入多动作头DPO(MAH-DPO)以及基于持续隐藏状态的PRM引导解码,实现了训练与推理阶段的细粒度多目标控制。实验覆盖数学推理、价值观对齐和多轮对话,结果表明该方法在多个目标上协同提升,减少权衡,并支持灵活的用户控制。代码已开源,方法设计系统性强,创新性高。
8.4
Adaptive Batch-Wise Sample Scheduling for Direct Preference Optimization 📄 Link 🤖 Kimi 💬 GPT
Huang, Ban, Fu, Li, Dai, Li, Wang
本文提出了一种针对直接偏好优化(DPO)的自适应样本调度新问题——Sample Scheduling for DPO,并设计了高效算法SamS,通过结合模型训练过程中的动态状态信息,实现对训练样本的动态选择。该方法在不修改DPO核心算法的前提下,显著提升了模型在多个主流评测基准上的表现,同时增强了对标签噪声的鲁棒性,且计算开销极小。论文创新性强,实验充分,代码已开源,具有较高的实用价值和推广潜力。
8.4
A Critical Look At Tokenwise Reward-Guided Text Generation 📄 Link 🤖 Kimi 💬 GPT
Rashid, Wu, Grosse, Kristiadi, Poupart
本文对基于逐token奖励引导的文本生成方法(RGTG)进行了深入分析,指出现有方法使用全序列奖励模型评估部分序列存在理论缺陷,并提出通过显式训练基于部分序列的Bradley-Terry奖励模型来解决该问题。作者进一步证明所诱导的生成策略是两个不同长度RLHF策略的比值,这一理论洞察深刻且具有启发性。实验表明该方法优于现有RGTG方法,性能接近PPO和DPO等昂贵的离线对齐方法,而无需微调大模型。整体上,论文创新性强,理论分析严谨,实验充分,是一篇高质量的研究工作。
8.4
PipelineRL: Faster On-policy Reinforcement Learning for Long Sequence Generation 📄 Link 🤖 Kimi 💬 GPT
Piché, Kamalloo, Pardinas, Chen, Bahdanau
本文提出了PipelineRL,一种用于长序列生成的高效在线策略强化学习方法,通过引入‘飞行中权重更新’机制,在保持训练数据高时效性的同时显著提升了硬件利用率。实验在128块H100 GPU上验证了该方法相比传统RL快约2倍的学习速度,且保持了良好的策略一致性。论文方法创新性强,实验充分,开源实现增强了可复现性,叙述整体清晰但部分技术细节可进一步优化表达。
8.4
Why Alignment Must Precede Distillation: A Minimal Working Explanation 📄 Link 🤖 Kimi 💬 GPT
Cha, Cho
本文提出了一个关键且被忽视的问题:在语言模型对齐中,知识蒸馏(KD)前进行对齐(Align → KD)比先蒸馏再对齐(KD → Align)更有效。作者通过理论分析、可控的高斯混合实验和真实的SmolLM2语言模型验证,系统性地揭示了‘低召回陷阱’——使用低召回的蒸馏模型作为对齐参考会严重限制模型学习稀有但理想行为的能力。论文创新性强,证据充分,逻辑清晰,为对齐流程设计提供了重要原则。
8.4
OrthAlign: Orthogonal Subspace Decomposition for Non-Interfering Multi-Objective Alignment 📄 Link 🤖 Kimi 💬 GPT
Lin, Xu, Dong, Zhao, Yuan, Zhang, Yu, Zhang, Yao, Yi, Liu, Li, Wang
本文提出了OrthAlign,一种基于正交子空间分解的多目标对齐新方法,旨在从参数层面根本解决大语言模型在多目标对齐中的冲突问题。该方法通过将参数更新限制在相互正交的子空间中,确保不同偏好优化方向互不干扰,并提供了理论保证:在满足谱范数约束和正交约束下,模型更新具有线性Lipschitz增长,避免了不稳定性。实验表明,OrthAlign在多个基准上显著优于7个以上基线,不仅在双目标和三目标对齐中取得平均13.96%的奖励提升,还能作为即插即用模块增强现有方法。代码已开源,整体创新性强、证据充分,叙述较为清晰。
8.4
Alignment-Aware Decoding 📄 Link 🤖 Kimi 💬 GPT
Berdoz, Lanzendörfer, Caky, Wattenhofer
本文提出了对齐感知解码(Alignment-Aware Decoding, AAD),一种在推理阶段提升大语言模型对齐性能的通用方法。该方法无需额外训练,仅利用DPO训练前后的模型(SFT与DPO模型)构建token级奖励函数,通过改进解码策略实现更优的对齐效果。理论分析表明AAD可视为隐式奖励优化,实验在多个数据集和模型规模上验证了其显著优于强基线的表现,尤其在数据稀缺场景下仍保持鲁棒性,并可用于生成高质量合成数据以支持迭代对齐。整体创新性强,证据充分,方法简洁且具有广泛迁移潜力。
8.4
It Takes Two: Your GRPO Is Secretly DPO 📄 Link 🤖 Kimi 💬 GPT
Wu, Ma, Ding, Li, Wang, Chen, Su, Zhang, Huang, Zhang, Coates, Nie
本文提出了一种名为2-GRPO的高效强化学习算法,通过将GRPO重新解释为对比学习,并揭示其与DPO的内在联系,理论和实验证明仅需两个rollout即可达到与传统大组GRPO相当的性能,同时显著降低计算开销。方法创新性强,理论分析严谨,实验充分,显著提升了LLM后训练的效率。
8.4
Test-Time Policy Adaptation for Enhanced Multi-Turn Interactions with LLMs 📄 Link 🤖 Kimi 💬 GPT
Wei, Wang, He, Yu, Shu
本文提出了一种面向多轮交互中大语言模型性能退化问题的新范式T²PAM,并设计了轻量级在线自适应算法ROSA,通过测试时策略调整实现高效的会话内自我修正。方法创新性强,理论分析严谨,实验充分验证了其在多个任务上的有效性与高效性,且代码和数据开源,具备良好的可复现性。叙述整体清晰,但在部分技术细节表达上略有提升空间。
8.4
SeaPO: Strategic Error Amplification for Robust Preference Optimization of Large Language Models 📄 Link 🤖 Kimi 💬 GPT
Rao, Liao, Liu, Lin, Lian, Jin, Cheng, Yu, Zhang
本文提出了SeaPO,一种通过战略性错误放大来增强大语言模型偏好优化的新方法。该方法通过在负样本中注入三类常见错误(正确性、逻辑、幻觉),提升模型对错误模式的识别与规避能力。实验在多个模型规模(1.5B至14B)和能力维度上验证了其有效性,尤其在真实性、数学推理等任务上取得显著提升(最高达18.8%)。方法设计简洁,不依赖复杂的评分模型,具备良好的可扩展性和实用性。整体创新性强,证据充分,叙述较为清晰。
8.4
RAGferee: Building Contextual Reward Models for Retrieval-Augmented Generation 📄 Link 🤖 Kimi 💬 GPT
Coman, Sorodoc, Ribeiro, Byrne, Henderson, de Gispert
本文提出了RAGferee,一种针对检索增强生成(RAG)场景构建上下文感知奖励模型的新方法。通过将问答数据集转化为偏好数据对,作者构建了一个专注于响应忠实性、相关性和完整性的RAG专用偏好数据集,并在此基础上微调了多种规模的奖励模型。实验表明,该方法在ContextualJudgeBench上显著优于更大规模的通用奖励模型,展现出极强的有效性和数据效率。研究填补了RAG领域专用评估模型的空白,且数据与代码已开源,具有较高的实用价值。
8.4
Reinforced Strategy Optimization for Conversational Recommender Systems via Network-of-Experts 📄 Link 🤖 Kimi 💬 GPT
Zhao, Yan, Zhang, Deng, Wang, Zhu, Qiu, Cheng, Chua
本文提出了一种面向对话推荐系统的分层策略优化方法RSO,通过网络化专家架构将宏观策略规划与微观策略适应解耦,并引入强化学习进行策略探索。方法设计新颖,实验充分,在多个基准数据集上显著优于现有方法,尤其在对话质量、推荐准确性和可信度方面表现突出。尽管叙述清晰度尚有提升空间,但整体是一篇高质量的研究工作。
8.4

研究全貌

Agent领域研究在多个批次中呈现出高度一致的方向聚焦与系统性演进。主要研究方向集中在工具调用与环境交互多智能体协同与架构创新长期记忆与推理机制资源效率与部署优化以及安全对齐与鲁棒性增强五大维度。工具调用研究强调真实环境数据生成与高效执行,多智能体系统趋向自组织、可演化架构,记忆机制探索信息选择与回溯能力,效率优化关注训练与推理的轻量化,安全方向则聚焦序列级风险与工具链攻击。当前热点问题集中在:如何在复杂、部分可观测、长周期任务中实现高效、可靠、可控的智能体行为。整体趋势显示,研究正从“单模型能力增强”转向“系统级工程构建”,强调模块化、可扩展性、闭环反馈与实际部署能力,开源框架与基准建设成为推动领域发展的关键基础设施。

重点方法深度解析

从所有批次中,以下五个方法最具代表性,体现了Agent系统的核心突破方向:

TOUCAN: Synthesizing 1.5M Tool-Agentic Data(批次1)解决了工具调用数据稀缺问题,提出在真实MCP环境中通过多模型协作生成150万条高保真交互轨迹。采用模型+规则双重过滤与多轮扩展机制,在BFCL V3等基准上显著提升微调模型性能。适用于自动化办公、智能助手等需大规模工具训练的场景。

Graph of Agents (GoA)(批次3)创新性地将长上下文建模为多智能体协作问题,动态构建“智能体图”实现信息高效压缩。仅用2K上下文即超越128K模型,在LongBench上F1提升16.35%。无需训练、即插即用,特别适合法律、医学等超长文本分析。

ReasoningBank(批次1)提出推理记忆闭环机制,将成功与失败经验提炼为可检索的策略记忆,结合MaTTS实现测试时自我进化。在Web浏览与工程任务中显著提升成功率并减少步数,适用于科研助手、运维系统等需持续学习的场景。

PALADIN(批次4)聚焦工具调用失败的鲁棒性问题,基于LoRA微调构建5.5万条恢复轨迹,通过案例检索实现自动修复。在PaladinEval上恢复率达89.68%,对未见API泛化性强,适用于金融、医疗等高风险场景。

Flash-Searcher(批次4)提出DAG并行执行框架,将任务分解为带依赖的子任务并发执行,端到端延迟降低65%。适用于Web搜索、数据分析等高频交互场景。

这些方法可组合使用:TOUCAN提供高质量训练数据,GoA与ReasoningBank增强长程推理与记忆,PALADIN保障执行鲁棒性,Flash-Searcher提升响应效率,形成“数据-推理-记忆-安全-效率”全栈增强方案。

实践启示

Agent系统开发应从“单点优化”转向“系统设计”。建议:1)优先采用TOUCAN式真实数据合成与Flash-Searcher的并行架构提升实用性;2)在长文本任务中引入GoA或ReMemR1增强推理深度;3)高风险场景必须集成PALADIN类故障恢复机制。推荐组合:TOUCAN + GoA + PALADIN,兼顾能力、效率与安全。实现时需注意:避免多智能体协调开销过大;重视序列级安全监控(如STAC防御);部署中结合轻量化技术(如QLoRA)适配边缘设备。未来竞争力将取决于系统集成能力与闭环进化机制的设计水平。

TOUCAN: Synthesizing 1.5M Tool-Agentic Data from Real-World MCP Environments 📄 Link 🤖 Kimi 💬 GPT
Xu, Soria, Tan, Roy, Agrawal, Poovendran, Panda
本文提出了TOUCAN,一个大规模开源的工具型智能体数据集,包含150万条基于真实MCP环境生成的轨迹。该数据集通过系统化的五阶段生成流程和三种扩展机制,显著提升了工具调用任务的多样性、真实性和复杂性。实验表明,在TOUCAN上微调的模型在多个权威基准(如BFCL V3和MCP-Universe)上超越了更大规模的闭源模型,推动了开源社区在智能体能力上的发展。方法创新性强,证据充分,且代码与数据均已开源,具有重要实践价值。
9.0
Adaptive and Resource-efficient Agentic AI Systems for Mobile and Embedded Devices: A Survey 📄 Link 🤖 Kimi 💬 GPT
Liu, Wu, Xu, Li, Pang, Guo, Yu
本文是首篇系统性综述面向移动与嵌入式设备的自适应、资源高效型智能体AI系统,提出了涵盖弹性FM推理、测试时适应、动态多模态融合和应用驱动优化的新分类体系。论文结构清晰,覆盖全面,填补了现有综述在移动端AI智能体资源约束与动态适应性方面的研究空白,具有较强的前瞻性和指导意义。
8.9
ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory 📄 Link 🤖 Kimi 💬 GPT
Ouyang, Yan, Hsu, Chen, Jiang, Wang, Han, Le, Daruki, Tang, Tirumalashetty, Lee, Rofouei, Lin, Han, Lee, Pfister
本文提出了ReasoningBank,一种新型的代理记忆框架,能够从成功和失败的经验中提炼出可迁移的推理策略,并结合记忆感知的测试时扩展(MaTTS)形成闭环的自我进化机制。在多个复杂任务(如网页浏览和软件工程)上,该方法显著优于现有记忆机制,不仅提升了任务成功率,还减少了交互步数,展现出强大的通用性和效率。实验设计充分,证据有力,创新性突出,叙述整体清晰,是构建持续学习智能代理的重要进展。
8.9
Automated Extraction of Material Properties using LLM-based AI Agents 📄 Link 🤖 Kimi 💬 GPT
Ghosh, Tewari
本文提出了一种基于大语言模型(LLM)的智能体工作流,用于从约10,000篇全文科学论文中自动提取热电材料的性能与结构属性。该方法结合动态令牌分配、零样本多智能体提取和条件化表格解析,在保证高精度的同时显著降低了计算成本。研究构建了迄今为止规模最大的LLM驱动热电材料数据集(27,822条记录),并发布了支持语义查询和CSV导出的交互式网页探索工具。方法设计严谨,实验充分,开源代码与数据,具有高度可复现性和广泛适用性。
8.9
GUI Agents: A Survey 📄 Link 🤖 Kimi 💬 GPT
Nguyen, Chen, Wang, Wu, Park, Hu, Lyu, Wu, Aponte, Xia, Li, Shi, Chen, Lai, Xie, Kim, Zhang, Yu, Tanjim, Ahmed, Mathur, Yoon, Yao, Kveton, Kil, Nguyen, Bui, Zhou, Rossi, Dernoncourt
本文是一篇关于GUI Agent的全面综述,系统梳理了当前基于大模型的GUI智能体在基准测试、评估指标、架构设计和训练方法等方面的最新进展。作者提出了一个统一的框架,涵盖感知、推理、规划与执行四个核心能力,并深入分析了现有开放问题与未来方向。内容组织清晰,覆盖广泛,引用文献详实,对研究人员和从业者具有重要参考价值。
8.7
STAC: When Innocent Tools Form Dangerous Chains to Jailbreak LLM Agents 📄 Link 🤖 Kimi 💬 GPT
Li, He, Shang, Kulshreshtha, Xian, Zhang, Su, Swamy, Qi
本文提出了Sequential Tool Attack Chaining(STAC),一种针对工具增强型大语言模型代理的新型多轮攻击框架。该框架通过将看似无害的工具调用串联起来,在最终执行步骤中实现恶意目标,揭示了当前LLM代理在序列行为安全评估方面的严重缺陷。研究构建了包含483个案例的基准,系统评估了多种前沿模型,发现攻击成功率普遍超过90%。同时提出了一种基于推理的防御提示,显著提升了防护能力。工作创新性强,实验证据充分,对AI安全领域具有重要启示。
8.7
A Survey on Code Generation with LLM-based Agents 📄 Link 🤖 Kimi 💬 GPT
Dong, Jiang, Qian, Wang, Zhang, Jin, Li
本文是一篇关于基于大语言模型的代码生成智能体的系统性综述,全面梳理了该领域的技术发展脉络、核心方法、应用场景、评估体系与代表性工具。论文从方法论角度对单智能体与多智能体系统进行了深入分类与分析,并提出了未来研究方向。内容结构清晰,文献覆盖全面,具有较强的学术参考价值。
8.7
GEM: A Gym for Agentic LLMs 📄 Link 🤖 Kimi 💬 GPT
Liu, Sims, Duan, Chen, Yu, Zhou, Xu, Xiong, Liu, Tan, Beh, Wang, Zhu, Shi, Yang, Shieh, Teh, Lee, Lin
本文提出了GEM(General Experience Maker),一个面向基于大语言模型(LLM)智能体的开源环境模拟框架,旨在推动从静态数据训练向交互式经验学习的范式转变。GEM借鉴OpenAI-Gym的设计理念,提供了标准化的环境-智能体接口、异步向量化执行、模块化封装器以及涵盖多领域(如数学、代码、问答、游戏等)的多样化多轮环境套件。作者还提出了一种适用于多轮强化学习的REINFORCE变体——带回报批量归一化(ReBN)的REINFORCE,实验证明其在多轮任务中优于GRPO和PPO等主流方法。GEM支持与五种主流RL训练框架的无缝集成,并作为统一评估工具展示了对强LLM在工具调用和终端操作任务上的评测能力。整体而言,该工作基础设施扎实,创新性强,实验充分,开源完整,对推动具身化、长视野LLM智能体研究具有重要价值。
8.7
A Practitioner's Guide to Multi-turn Agentic Reinforcement Learning 📄 Link 🤖 Kimi 💬 GPT
Wang, Ammanabrolu
本文系统研究了多轮代理式强化学习(multi-turn agentic RL)在大语言模型训练中的关键设计因素,提出了以环境、奖励和策略为三大支柱的实用训练配方。作者在TextWorld、ALFWorld和SWE-Gym等多个真实任务上进行了大量实验,揭示了环境复杂性、奖励密度、策略初始化与算法选择对训练效果的影响,并开源了代码与框架。研究兼具理论深度与实践指导意义,为多轮交互式智能体的开发提供了清晰路径。
8.7
PSG-Agent: Personality-Aware Safety Guardrail for LLM-based Agents 📄 Link 🤖 Kimi 💬 GPT
Wu, Guo, Li, Zou, Huang, Chen, Wang, Zhang, Li, Zhang, Jiang, Yu
本文提出了PSG-Agent,一种面向大语言模型代理的个性化安全防护系统,首次系统性地定义了代理场景下的个性化安全问题,并提出‘用户画像×上下文状态×代理行为’的三维威胁模型。方法创新性强,设计了无需训练、即插即用的两阶段个性化防护框架,结合用户历史与实时状态生成个性化安全标准,并通过多点动态监控实现跨轮次风险追踪。在自建的高质量个性化安全基准上,PSG-Agent显著优于现有方法,且代码开源,实验充分,具备良好的可复现性和实际应用价值。叙述整体清晰,但部分技术细节可进一步优化表达。
8.6
IoT-MCP: Bridging LLMs and IoT Systems Through Model Context Protocol 📄 Link 🤖 Kimi 💬 GPT
Yang, Lyu, Ma, Lu, Li, Gao, Ye, Zhang, Chen, Chen
本文提出了IoT-MCP框架,通过Model Context Protocol(MCP)实现大语言模型(LLM)与物联网(IoT)系统的高效集成,解决了硬件异构性和控制复杂性问题。作者设计了三模块解耦架构,并发布了首个面向LLM-IoT系统的综合基准IoT-MCP Bench,包含1254个任务。实验覆盖22种传感器和6类微控制器,验证了系统100%任务成功率、205ms响应时间和74KB内存占用,性能优越且开源完整。整体创新性强,实证充分,具有较高实用与推广价值。
8.6
The Unreasonable Effectiveness of Scaling Agents for Computer Use 📄 Link 🤖 Kimi 💬 GPT
Gonzalez-Pumariega, Tu, Lee, Yang, Li, Wang
本文提出了行为级Best-of-N(bBoN)框架,通过生成多个智能体轨迹并基于行为叙事进行选择,显著提升了计算机使用智能体(CUA)在复杂任务中的成功率。在OSWorld上达到69.9%的准确率,接近人类水平(72%),并在Windows和Android平台上展现出良好的零样本迁移能力。方法创新性强,实验充分,叙述整体清晰,是当前CUA领域的重要进展。
8.6
Dynamic ReAct: Scalable Tool Selection for Large-Scale MCP Environments 📄 Link 🤖 Kimi 💬 GPT
Gaurav, Akarsh, Ranjan, Bajaj
本文提出了Dynamic ReAct架构,旨在解决大规模MCP环境中LLM代理因上下文限制而难以高效使用海量工具的问题。作者系统性地设计并评估了五种动态工具选择架构,最终提出的‘搜索与加载’机制在减少50%工具加载量的同时保持了任务完成准确率。研究结合语义检索优化、元工具设计和上下文增强策略,显著提升了工具检索精度,并提供了面向生产的可扩展解决方案。整体创新性强,实验充分,方法具有良好的通用性和工程指导价值,叙述较为清晰。
8.6
HeDA: An Intelligent Agent System for Heatwave Risk Discovery through Automated Knowledge Graph Construction and Multi-layer Risk Propagation Analysis 📄 Link 🤖 Kimi 💬 GPT
Wang, Huang, Gao, Zhang
本文提出了HeDA——一种用于热浪风险发现的智能多智能体系统,通过自动化知识图谱构建与多层风险传播分析,实现了对跨领域级联风险路径的主动发现。方法在创新性、证据充分性和通用性方面表现突出,成功发现了多个被忽视的高影响风险链,并通过历史案例和专家验证。系统在复杂问答任务中显著超越GPT-4等基线模型,展示了AI驱动科学发现的新范式。尽管存在表达细节可优化、地理与文献偏倚等局限,整体质量高,具有重要科学与政策价值。
8.6
Information Seeking for Robust Decision Making under Partial Observability 📄 Link 🤖 Kimi 💬 GPT
Fang, Ke
本文提出了InfoSeeker,一种将显式信息寻求与任务导向规划相结合的LLM决策框架,旨在解决部分可观测环境中观测与动态不确定性下的鲁棒决策问题。作者引入了一个新的基准测试套件,首次同时评估观测和环境动态的不确定性,并展示了InfoSeeker在多个任务上显著优于现有方法,尤其是在动态不匹配场景下取得74%的绝对性能提升。方法创新性强,实验设计充分,具备良好的通用性和跨任务迁移能力。
8.6
Just Do It!? Computer-Use Agents Exhibit Blind Goal-Directedness 📄 Link 🤖 Kimi 💬 GPT
Shayegani, Hines, Dong, Abu-Ghazaleh, Lutz, Whitehead, Balachandran, Nushi, Vineet
本文提出了“盲目标导向性”(Blind Goal-Directedness, BGD)这一关键现象,系统揭示了计算机操作代理(CUA)在执行任务时盲目追求目标而忽视安全性、可行性与上下文的普遍风险。作者构建了包含90个任务的Benchmark——Blind-Act,基于OSWorld真实桌面环境,涵盖上下文推理缺失、模糊决策和矛盾/不可行目标三类BGD模式,并采用LLM裁判实现高一致性自动化评估。对九个前沿模型的大规模评测显示,平均BGD率高达80.8%,提示当前CUA存在严重对齐问题。研究还揭示了执行优先偏见、思维-行动脱节和请求优先等深层失败模式,表明仅靠提示工程难以根本解决该问题。论文问题意识深刻,方法扎实,实证充分,为CUA安全研究提供了重要基础。
8.6
WebExplorer: Explore and Evolve for Training Long-Horizon Web Agents 📄 Link 🤖 Kimi 💬 GPT
Liu, Li, Zhang, Li, Chen, Ji, Cheng, Wu, Du, Xu, Song, Zhu, Chen, Zhao, He
本文提出了WebExplorer,一种通过模型驱动探索与迭代式长到短查询演化来合成高挑战性问答对的新方法,用于训练长视野网页代理。该方法有效解决了现有开源网页代理在复杂任务上表现不足和训练数据稀缺的问题。基于高质量合成数据,作者成功训练出支持128K上下文和最多100次工具调用的WebExplorer-8B模型,在多个信息检索基准上达到同规模模型的SOTA性能,甚至超越72B等更大模型,并在未直接训练的学术基准HLE上展现出强泛化能力。研究方法创新性强,实验充分,且代码与数据已开源,具有重要实践价值。
8.5
MAS$^2$: Self-Generative, Self-Configuring, Self-Rectifying Multi-Agent Systems 📄 Link 🤖 Kimi 💬 GPT
Wang, Zhang, Ye, Deng, Wang, Hu, Guo, Liu, Guo
本文提出了MAS²,一种具备自生成、自配置、自修正能力的多智能体系统新范式。该方法通过‘生成-实施-修正’三智能体架构,实现对目标任务的动态建模与实时调整,并引入协同树优化(CTO)进行元智能体训练。在七个基准上的实验表明,MAS²在复杂任务(如深度研究与代码生成)中显著优于现有方法,且具备良好的跨模型泛化能力与成本效益。方法创新性强,实验充分,代码已开源,整体质量高。
8.5
WebGen-Agent: Enhancing Interactive Website Generation with Multi-Level Feedback and Step-Level Reinforcement Learning 📄 Link 🤖 Kimi 💬 GPT
Lu, Ren, Yang, Wang, Zong, Pan, Zhan, Li
本文提出了WebGen-Agent,一种结合多级视觉反馈与步骤级强化学习的交互式网站生成智能体系统。通过引入基于截图和GUI测试的双重反馈机制,并设计回溯与最优步骤选择策略,显著提升了生成网站的功能正确性和视觉美观性。进一步提出的Step-GRPO训练方法利用细粒度的步骤级奖励信号,有效增强了小规模开源模型的生成能力。实验充分,在WebGen-Bench上取得了显著性能提升,且代码、数据与模型权重全部开源,工作完整、可复现。
8.5
Orak: A Foundational Benchmark for Training and Evaluating LLM Agents on Diverse Video Games 📄 Link 🤖 Kimi 💬 GPT
Park, Kim, Choi, Kim, Lee, Lee, Park, Lee, Hwang, Ahn, Mahabaleshwarkar, Kartal, Biswas, Suhara, Lee, Cho
本文提出了Orak,一个面向多样化真实视频游戏的LLM智能体训练与评估基础性基准。该工作填补了现有游戏评测基准在游戏类型多样性、智能体模块研究和微调数据支持方面的空白。Orak包含12款跨六大类型的流行游戏,引入基于Model Context Protocol(MCP)的即插即用接口,支持对视觉输入、智能体策略和微调效果的系统性评估,并发布了由专家LLM生成的游戏轨迹微调数据集。实验全面,代码与数据开源,为构建通用游戏智能体提供了重要基础。
8.5
Look Back to Reason Forward: Revisitable Memory for Long-Context LLM Agents 📄 Link 🤖 Kimi 💬 GPT
Shi, Chen, Wang, Li, Cai, Gu, Wang, Zhang
本文提出了一种面向长上下文问答的可回溯记忆机制ReMemR1,通过引入历史记忆回调和多级强化学习奖励,有效缓解了传统‘边读边记’范式中的信息丢失、单向处理和监督稀疏等问题。方法创新性强,实验设计充分,包含多组对比、消融和挑战性测试,且代码已开源,验证了其在长上下文推理任务中的优越性和泛化能力。
8.5
From Evidence to Trajectory: Abductive Reasoning Path Synthesis for Training Retrieval-Augmented Generation Agents 📄 Link 🤖 Kimi 💬 GPT
Li, Qi, Wu, Zhao, Ma, Li, Wang, Zhang, Leung, King
本文提出了EviPath,一种基于溯因推理的证据锚定推理路径合成框架,用于训练检索增强生成(RAG)智能体。该方法通过反向构建最优推理路径,生成包含任务分解、检索调用和逐步推理的全过程监督数据,显著提升了小规模模型在多跳问答任务上的表现,取得了高达14.7%的EM绝对增益。方法创新性强,实验充分,具备良好的通用性和迁移潜力。
8.5
FedAgentBench: Towards Automating Real-world Federated Medical Image Analysis with Server-Client LLM Agents 📄 Link 🤖 Kimi 💬 GPT
Saha, Strong, Mishra, Ouyang, Noble
本文提出了首个面向真实世界联邦医疗图像分析的LLM智能体驱动框架FedAgentBench,系统性地解决了联邦学习中客户端协调、数据预处理、标签对齐等实际操作瓶颈。论文设计了包含201个数据集、6种医学影像模态和40种FL算法的综合性基准,评估了24个主流LLM智能体在多阶段联邦工作流中的自动化能力。研究具有高度现实意义,实验充分,开源贡献显著,是AI与联邦学习交叉领域的重要进展。
8.5
TusoAI: Agentic Optimization for Scientific Methods 📄 Link 🤖 Kimi 💬 GPT
Turcan, Huang, Li, Zhang
本文提出了TusoAI,一种面向科学方法开发的智能体AI系统,能够基于任务描述和评估函数自主设计并优化计算方法。该系统通过知识树结构整合领域知识,结合贝叶斯更新的分层规划与细粒度生成机制,在单细胞分析和科学深度学习任务中显著超越现有专家方法和AI代理。在遗传学案例中,TusoAI不仅提升了现有工具性能(如scDRS和pgBoost),还发现了多个新的生物学关联,验证了其在真实科研问题中的实用价值。方法创新性强,实验充分,且代码已开源。
8.5
SimuHome: A Temporal- and Environment-Aware Benchmark for Smart Home LLM Agents 📄 Link 🤖 Kimi 💬 GPT
Seo, Yang, Pyo, Kim, Lee, Jo
本文提出了SimuHome,一个时间与环境感知的智能家庭大语言模型(LLM)代理基准,具有高度创新性和实用性。作者构建了一个基于Matter协议的高保真模拟环境,支持设备状态动态演化、环境变量反馈和时间加速,并设计了包含600个任务的多样化基准,涵盖隐含意图理解、时序调度和状态验证等挑战。实验评估了11个主流LLM代理,揭示了当前模型在时序推理和状态核实方面的显著不足。研究问题重要,方法设计严谨,证据充分,具备较强的可复现性和实际部署潜力。
8.5
Scaling Synthetic Task Generation for Agents via Exploration 📄 Link 🤖 Kimi 💬 GPT
Ramrakhya, Szot, Attia, Yang, Nguyen, Mazoure, Gan, Agrawal, Toshev
本文提出了AutoPlay,一种通过主动探索交互环境来自动生成多样化、可执行且可验证任务的可扩展管道,用于训练多模态大语言模型(MLLM)代理。该方法在移动和计算机UI代理任务中生成了大规模合成数据集,显著提升了监督微调和强化学习下的代理性能,减少了对人工标注的依赖。实验充分,结果表明AutoPlay在任务覆盖率、可行性和下游性能上均优于现有方法,具有较强的实用性和推广潜力。
8.5
InfoAgent: Advancing Autonomous Information-Seeking Agents 📄 Link 🤖 Kimi 💬 GPT
Zhang, Zhu, Yang, Qiu, Zhang, Wu, Dai, Liu, Luo, Yang, Li, Wang, Chen, Zhang, Li, Liu, Geng, Guo
本文提出了InfoAgent,一种基于创新数据合成管道和自建搜索工具的深度信息检索智能体。通过构建实体树并结合子树采样与实体模糊化,系统生成高难度、多跳推理的训练问题,显著提升模型的长视野搜索能力。同时,作者开发了可复现的自托管搜索基础设施,增强了实验透明性。InfoAgent在多个深研究基准上超越了更大规模的开源模型,展现出强大的性能和跨语言泛化能力。方法创新性强,实验设计严谨,证据充分,叙述整体清晰,是当前自主智能体领域的一项高质量工作。
8.5
RadOnc-GPT: An Autonomous LLM Agent for Real-Time Patient Outcomes Labeling at Scale 📄 Link 🤖 Kimi 💬 GPT
Holmes, Hao, Borras-Osorio, Mastroleo, Brufau, Carducci, Van Abel, Routman, Foong, Muller, Shiraishi, Ebner, Ma, Keole, Patel, Fatyga, Bues, Stish, Garces, Wittich, Foote, Vora, Laack, Waddle, Liu
本文提出了RadOnc-GPT,一种基于GPT-4o的自主大语言模型代理,用于在放射肿瘤学中实现患者结局的实时、大规模自动标注。研究采用两阶段评估框架:第一阶段验证其对结构化数据的高保真检索能力,第二阶段评估其在复杂临床任务(如下颌骨放射性骨坏死和癌症复发检测)中的表现。结果显示,RadOnc-GPT在结构化数据提取上接近完美,并在多病种复发检测中展现出高准确率与高召回率,尤其在标注同时发现大量原有数据库中的隐藏错误,凸显其作为‘自动标注+实时审计’双重功能系统的潜力。方法无需微调,依赖提示工程与精细化函数调用,具备良好可扩展性。
8.5
ATLAS: Constraints-Aware Multi-Agent Collaboration for Real-World Travel Planning 📄 Link 🤖 Kimi 💬 GPT
Choi, Yoon, Chen, Jha, Pfister
本文提出了ATLAS,一种面向现实旅行规划任务的约束感知多智能体协作框架。该框架系统性地解决了复杂约束下的规划难题,包括显式与隐式约束的构建、基于约束的迭代计划验证以及信息缺失时的自适应搜索机制。在TravelPlanner基准和真实多轮交互设置中,ATLAS均取得了显著优于现有方法的性能,尤其在动态环境下的高通过率和低幻觉率验证了其实际应用潜力。论文方法设计合理,实验充分,创新性强,是多智能体系统在复杂现实任务中的一次成功实践。
8.5
RoboPilot: Generalizable Dynamic Robotic Manipulation with Dual-thinking Modes 📄 Link 🤖 Kimi 💬 GPT
Liu, Sani, Zhou, Wirbel, Zarrin, Galeazzi
本文提出了RoboPilot,一种具有双思维模式的闭环机器人操作框架,通过引入动作原语、链式思维推理和动态模式切换机制,显著提升了复杂动态环境中任务执行的鲁棒性和适应性。作者还构建了包含不可行任务识别与错误恢复的综合性基准RoboPilot-Bench,实验在仿真和真实机器人平台上均验证了方法的优越性,整体技术完整、创新突出、证据充分。
8.5
MAVUL: Multi-Agent Vulnerability Detection via Contextual Reasoning and Interactive Refinement 📄 Link 🤖 Kimi 💬 GPT
Li, Joshi, Wang, Wong
本文提出了一种名为MAVUL的多智能体漏洞检测系统,通过上下文推理与交互式精炼机制,有效解决了现有LLM-based漏洞检测方法在跨过程分析、单轮交互和粗粒度评估方面的局限性。系统设计了漏洞分析师、安全架构师和评估裁判三个角色,实现了工具调用、多轮反馈和细粒度评估的闭环。实验结果表明,MAVUL在成对准确率上显著优于现有单智能体和多智能体系统,且开源了代码,方法创新性强,证据充分,具备良好的可迁移潜力。
8.5
QUASAR: Quantum Assembly Code Generation Using Tool-Augmented LLMs via Agentic RL 📄 Link 🤖 Kimi 💬 GPT
Yu, Uotila, Deng, Wu, Shi, Jiang, You, Zhao
本文提出了QUASAR,一种基于工具增强大语言模型与代理式强化学习的量子汇编代码生成框架。该方法通过引入量子电路验证工具和四层级奖励机制,在语法正确性和语义质量上均显著优于现有工业级大模型。创新性强,实验充分,且代码与模型均已开源,具备较高研究价值。
8.5
Automating Data-Driven Modeling and Analysis for Engineering Applications using Large Language Model Agents 📄 Link 🤖 Kimi 💬 GPT
Liu, Abulawi, Garimidi, Lim
本文提出了一种基于大语言模型(LLM)代理的自动化数据驱动建模框架,用于工程应用中的回归任务,特别是在核工程关键热流密度(CHF)预测问题上进行了验证。研究设计了多代理系统和单代理ReAct系统,实现了从数据预处理、模型构建、训练、超参数优化到不确定性量化的全流程自动化。实验结果表明,LLM代理开发的模型性能与人类专家优化的贝叶斯深度神经网络相当,且显著优于传统查表法。该方法在减少人工干预的同时保持了高预测精度和可靠的不确定性估计,展示了LLM代理在复杂工程建模中的巨大潜力。
8.5
AgentRec: Next-Generation LLM-Powered Multi-Agent Collaborative Recommendation with Adaptive Intelligence 📄 Link 🤖 Kimi 💬 GPT
Ma, Li, Hu, Gui, Liu, Lau
本文提出了AgentRec,一种基于大语言模型的多智能体协同推荐框架,通过分层智能体网络和自适应协调机制,有效解决了现有对话推荐系统在动态偏好建模、多目标平衡和实时适应性方面的局限。方法创新性强,实验在多个真实数据集上验证了其优越性,推荐效果和对话效率均有显著提升;叙述较为清晰,但部分技术细节可进一步展开。
8.5
GRACE: A Language Model Framework for Explainable Inverse Reinforcement Learning 📄 Link 🤖 Kimi 💬 GPT
Sapora, Hjelm, Toshev, Attia, Mazoure
本文提出了GRACE,一种结合大语言模型与进化搜索的可解释逆强化学习框架,能够从专家轨迹中自动生成可执行、可验证的代码形式奖励函数。方法在BabyAI和AndroidWorld两个复杂环境中验证了其高效性与强泛化能力,仅需少量演示即可学习准确奖励,并显著优于GAIL等主流IRL方法,甚至媲美使用真实奖励的在线强化学习。此外,该方法天然支持多任务奖励API的构建与模块复用,具备良好的可解释性和工程实用价值。整体创新性强,实验证据充分,方法设计具有跨领域迁移潜力。
8.5
AgentPack: A Dataset of Code Changes, Co-Authored by Agents and Humans 📄 Link 🤖 Kimi 💬 GPT
Zi, Wu, Boruch-Gruszecki, Bell, Guha
本文提出了AgentPack,首个由人类与AI代理共同编写代码的大型数据集,包含130万次代码修改,来源于Claude Code、OpenAI Codex和Cursor Agent在GitHub上的公开活动。该数据集具有高质量、多文件修改、详细自然语言描述等优势,实验证明在该数据集上微调的模型在代码编辑任务上优于以往基于人类提交的数据集。论文创新性强,证据充分,方法具有良好的通用性和研究价值,叙述整体清晰,是软件工程与AI交叉领域的重要贡献。
8.5
Infusing Theory of Mind into Socially Intelligent LLM Agents 📄 Link 🤖 Kimi 💬 GPT
Hwang, Yin, Carenini, West, Shwartz
本文提出ToMA(Theory of Mind Agent)方法,通过将心智理论(ToM)与对话前瞻模拟结合,提升LLM在社交对话中的目标达成能力。在Sotopia基准上实验表明,该方法显著优于多种基线模型,展现出更强的战略性、长期适应性和关系维护能力。方法创新性强,实验充分,且代码、数据和模型均已开源,具备良好的可复现性与应用潜力。
8.5
Dual-Scale World Models for LLM Agents Towards Hard-Exploration Problems 📄 Link 🤖 Kimi 💬 GPT
Kim, Hwang
本文提出了一种名为GLoW的双尺度世界模型框架,用于提升大语言模型(LLM)代理在硬探索任务中的表现。该方法通过全局世界模型维护高价值轨迹前沿以指导状态选择,并通过局部世界模型中的多路径优势反思机制(MAR)从稀疏反馈中提取密集的探索信号。在Jericho文本游戏基准上,GLoW实现了LLM代理中的最先进性能,且与强化学习方法性能相当,但环境交互次数减少100-800倍。方法创新性强,实验充分,叙述整体清晰,具备较强的可复现性。
8.5
K-Dense Analyst: Towards Fully Automated Scientific Analysis 📄 Link 🤖 Kimi 💬 GPT
Li, Agarwal, Zhou, Gopinath, Kassis
本文提出了K-Dense Analyst,一种面向全自动生物科学分析的层次化多智能体系统,采用双循环架构实现复杂生物信息学任务的自主规划与验证执行。在BixBench基准测试中,该系统以29.2%的准确率显著超越GPT-5等前沿大模型,且基于性能较弱的Gemini 2.5 Pro实现了近60%的性能提升,证明了架构创新在科学分析中的关键作用。论文方法设计严谨,实验充分,案例详实,展示了在真实科研场景中实现AI自主分析的巨大潜力。
8.4
Towards Agentic OS: An LLM Agent Framework for Linux Schedulers 📄 Link 🤖 Kimi 💬 GPT
Zheng, Hu, Zhang, Quinn
本文提出了SchedCP,首个将大语言模型(LLM)智能体用于Linux调度器自动优化的框架,通过解耦控制平面实现安全、高效的系统自优化。核心创新在于将优化任务分解为‘目标推断’和‘策略生成’两个阶段,并设计了支持多智能体协作的架构。实验表明该方法在多种工作负载下显著提升性能并降低成本,且代码已开源,具有较强实用性和前瞻性。
8.4

研究全貌

本领域共收录若干篇论文,分布在2个批次中,研究方向主要集中在幻觉检测与缓解事实性评估与校准可信推理框架设计不确定性表达以及知识编辑与干预机制五大方向。幻觉检测聚焦于细粒度定位与内部机制建模,事实性评估致力于提升评估完整性与可解释性,可信推理则通过结构化流程或协作机制增强生成可靠性。当前热点问题是如何在高风险、复杂场景中实现可验证、可审计的可靠生成,并推动从“事后修正”向“事前预防”与“过程可控”转变。整体趋势强调机制设计、人类对齐与系统可部署性,跨批次可见从被动检测到主动防御的演进脉络。

重点方法深度解析

从所有批次中,有四个工作最具代表性:

《The STAR-XAI Protocol》(第一批次)提出“清盒”式AI代理框架,解决状态幻觉与不可审计问题。其核心是苏格拉底式对话机制意识转移包(CTP),通过显式规则书和状态锁定校验和防止内部状态漂移。在自研战略游戏中实现100%状态可靠性,展现出自主修正能力。适用于自动驾驶、金融风控等高可靠性场景。

《Copy-Paste to Mitigate Large Language Model Hallucinations》(第一批次)提出CopyPasteLLM,通过提升生成中对检索内容的复制程度增强忠实性。采用两阶段训练:构建高复制偏好数据并进行偏好优化。仅用365样本即在FaithEval上提升24.5%准确率,数据效率极高。适合法律、医疗等需严格忠实源文本的场景。

《TruthRL: Incentivizing Truthful LLMs via Reinforcement Learning》(第二批次)创新性地设计三元奖励机制(正确+1、幻觉-1、弃权0),重塑训练目标,使模型“不说错”与“说对”同等重要。基于GRPO算法端到端训练,幻觉率下降28.9%。适用于客服、教育助手等需长期真实对齐的系统。

《Can Large Language Models Express Uncertainty Like Human?》(第二批次)提出“语言化置信度”(LC),将“可能”“大概”等自然表达转化为量化置信度。构建人工标注数据集并训练轻量映射器,单次推理即可媲美多采样方法。部署成本低,适用于医疗咨询等需自然表达不确定性的场景。

这些方法可组合使用:STAR-XAI提供结构化推理框架,TruthRL在其内部训练代理,CopyPasteLLM保障RAG输出忠实,LC用于对外沟通不确定性,形成“框架+训练+生成+表达”全链路防御体系。

实践启示

在大模型应用开发中,应根据场景选择组合策略:高风险领域(如医疗、法律)建议采用STAR-XAI或TruthRL构建可信推理流程,结合ConfRAG实现“不确定即检索”;知识密集型任务优先使用CopyPasteLLM提升上下文忠实性;资源受限环境可部署LC或CHARM类轻量方案。推荐“框架控制+训练对齐+生成忠实+置信表达”四层防护组合。实现时需注意:避免过度复制影响可读性,警惕“过度弃权”降低可用性,建议结合业务设定动态阈值。系统设计应融合多信号(激活、注意力、输出分布),提升鲁棒性与可解释性。

The STAR-XAI Protocol: A Framework for Inducing and Verifying Agency, Reasoning, and Reliability in AI Agents 📄 Link 🤖 Kimi 💬 GPT
Guasch, Valdez
本文提出了STAR-XAI协议,一种通过苏格拉底式对话框架训练可验证、透明且可靠的AI智能体的新方法。该方法通过结构化交互、显式规则书(CTP)和完整性协议(如状态校验和)实现了‘清盒’式推理,有效解决了大模型中的状态幻觉与推理崩溃问题。在自研战略游戏‘Caps i Caps’中的案例研究表明,该框架能诱导出二阶能动性,实现事前透明与100%状态可靠性。论文创新性强,实证充分,叙述清晰,为可解释AI与可信智能体设计提供了可迁移的通用范式。
8.7
Is Model Editing Built on Sand? Revealing Its Illusory Success and Fragile Foundation 📄 Link 🤖 Kimi 💬 GPT
Liu, Xu, Liu, Deng, Wang, Wang, Li, Teh, Lee
本文对当前大语言模型编辑领域提出了根本性质疑,指出其成功建立在脆弱的基础上,主要源于评估框架缺乏负例设计,导致模型依赖语义无关的‘捷径’而非真正语义理解。作者提出两种新的评估方法——否定查询和事实核查式测试,实验证明现有主流编辑方法在这些测试下全面崩溃,揭示了当前范式存在系统性缺陷。论文问题意识深刻,方法设计巧妙,对领域发展具有重要警示和引导作用。
8.7
VeriFact: Enhancing Long-Form Factuality Evaluation with Refined Fact Extraction and Reference Facts 📄 Link 🤖 Kimi 💬 GPT
Liu, Zhang, Munir, Gu, Wang
本文提出了VeriFact,一种用于增强长文本事实性评估的框架,通过改进事实提取来解决现有方法中事实不完整和遗漏的问题,并引入了新基准FactRBench,首次同时支持精确率和召回率评估。实验表明该方法显著提升了事实提取的完整性与准确性,且基准设计严谨、资源公开,对推动事实性评估研究具有重要意义。方法创新性强,证据充分,具备良好通用性,叙述整体清晰。
8.6
Are Hallucinations Bad Estimations? 📄 Link 🤖 Kimi 💬 GPT
Liu, Hu, Zhang, Song, Liu
本文提出将生成模型中的幻觉现象形式化为估计过程中的结构性错配,引入δ-幻觉概念,并证明即使在贝叶斯最优估计器下,幻觉仍不可避免。研究从理论和实验两方面验证了幻觉是估计目标与人类期望错位的必然结果,而非模型容量或数据不足所致。论文创新性强,理论严谨,实验设计合理,为理解幻觉提供了新视角。
8.6
MetaFaith: Faithful Natural Language Uncertainty Expression in LLMs 📄 Link 🤖 Kimi 💬 GPT
Liu, Yona, Caciularu, Szpektor, Rudner, Cohan
本文提出了MetaFaith,一种基于元认知启发的提示方法,用于提升大语言模型在自然语言中忠实表达不确定性的能力。作者进行了迄今为止最全面的忠实校准研究,覆盖16个模型、10个数据集和多种提示策略,系统揭示了现有模型和校准方法的不足。MetaFaith通过黑箱提示方式显著提升了不确定性表达的忠实性,平均提升达61%,并在人类评估中获得83%的胜率。方法创新性强,实验充分,且代码已开源,具有重要实践价值。
8.6
Follow the Path: Reasoning over Knowledge Graph Paths to Improve LLM Factuality 📄 Link 🤖 Kimi 💬 GPT
Zhang, Bjerva, Biswas
本文提出了一种通过引入知识图谱路径增强大语言模型推理轨迹的方法(fs1),以提升复杂开放域问答中的事实准确性。作者在多个模型和数据集上进行了大规模实验,系统评估了推理长度、测试时计算资源扩展对事实性的影响,并发布了包含170万条推理轨迹的宝贵数据集。研究发现,较小的模型能从知识图谱增强的推理中显著受益,而测试时扩展(如并行采样)可稳定提升准确性。整体工作扎实,创新性强,实验充分,具有重要实践和研究价值。
8.5
ADAM: A Diverse Archive of Mankind for Evaluating and Enhancing LLMs in Biographical Reasoning 📄 Link 🤖 Kimi 💬 GPT
Cekinmez, Ghahroodi, Chandle, Gupta, Asgari
本文提出了ADAM框架,包含大规模多语言多模态传记知识库AdamDB、基于布鲁姆分类法的认知分层评测基准AdamBench,以及专为传记推理设计的检索增强生成系统AdamRAG。该工作首次系统性地评估和增强大模型在传记推理中的能力,填补了多语言、跨文化、认知分层评测的空白。方法创新性强,实验设计全面,数据与代码将开源,具有重要研究价值。
8.5
MedMMV: A Controllable Multimodal Multi-Agent Framework for Reliable and Verifiable Clinical Reasoning 📄 Link 🤖 Kimi 💬 GPT
Liu, Zhu, Wang, Long, Lai, Yu, Zhao
本文提出了MedMMV,一种可控的多模态多智能体框架,旨在解决临床推理中因早期证据解释不稳定导致的幻觉和全局不一致问题。通过多样化短 rollout、基于证据图的验证机制和不确定性感知聚合,该方法在六个医学基准上显著提升了准确性和可靠性,且经医生盲评验证其推理真实性更高。论文创新性强,实验证据充分,方法设计具有良好的可迁移潜力,叙述整体清晰,但在系统复杂性与实际部署限制方面有所讨论,是一篇高质量的医疗AI研究工作。
8.5
Generalized Correctness Models: Learning Calibrated and Model-Agnostic Correctness Predictors from Historical Patterns 📄 Link 🤖 Kimi 💬 GPT
Xiao, Patil, Lee, Stengel-Eskin, Bansal
本文提出了一种通用且模型无关的正确性预测方法——广义正确性模型(GCM),通过从多个大语言模型的历史预测中学习校准的置信度,挑战了传统依赖模型‘自我认知’的假设。实验表明,LLM在预测自身输出正确性方面并无显著优势,而基于多模型历史训练的GCM在跨模型、跨数据集上均表现出优异的泛化能力和校准性能,并在选择性预测等下游任务中取得显著提升。方法创新性强,证据充分,代码开源,具有较高的理论和应用价值。
8.5
Calibrating Verbalized Confidence with Self-Generated Distractors 📄 Link 🤖 Kimi 💬 GPT
Wang, Stengel-Eskin
本文提出了一种名为DiNCo的新方法,通过自生成干扰项来校准大语言模型的言语化置信度,有效缓解了模型在不确定性话题上的过度自信和置信度饱和问题。方法基于对LLM易受暗示性的实证分析,结合生成与验证两个维度的连贯性,显著提升了置信度估计的校准效果。实验覆盖多种开源与闭源模型及短文本、长文本生成任务,结果表明DiNCo在多个指标上优于现有方法,且代码已开源,研究完整性强。
8.5
Copy-Paste to Mitigate Large Language Model Hallucinations 📄 Link 🤖 Kimi 💬 GPT
Long, Wu, Zhang, Wen, Zhou, Hong
本文提出了一种名为CopyPasteLLM的两阶段方法,通过提升响应中的上下文复制程度来缓解大语言模型在检索增强生成(RAG)中的幻觉问题。作者观察到复制程度与幻觉之间存在负相关,并据此设计了三种提示策略生成高复制性响应,进而通过偏好优化训练模型内化对上下文的信任。实验表明,该方法在多个权威数据集上显著优于现有基线,且仅需极少量训练样本(365例),展现出卓越的数据效率。此外,作者提出了Context-Parameter Copying Capturing算法,深入揭示了模型在生成过程中对参数知识与上下文知识的动态依赖机制。整体而言,论文创新性强,实验证据充分,代码开源,具有重要实践与理论价值。
8.5
Span-level Detection of AI-generated Scientific Text via Contrastive Learning and Structural Calibration 📄 Link 🤖 Kimi 💬 GPT
Yin, Wang
本文提出了一种面向科学文本的AI生成内容检测框架Sci-SpanDet,创新性地结合了结构感知的对比学习与细粒度跨度定位,实现了检测、定位与置信度校准的统一。方法在新构建的跨学科大规模数据集上取得了当前最优性能,具备良好的鲁棒性和可解释性。论文实验充分,分析深入,且承诺开源数据与代码,具有较高的学术价值和实际应用潜力。
8.5
EigenTrack: Spectral Activation Feature Tracking for Hallucination and Out-of-Distribution Detection in LLMs and VLMs 📄 Link 🤖 Kimi 💬 GPT
Ettori, Darabi, Tayebati, Krishnan, Subedar, Tickoo, Trivedi
本文提出了EigenTrack,一种基于隐藏层激活的谱几何特征进行幻觉和分布外检测的新方法。该方法通过提取滑动窗口内的协方差谱统计量(如熵、特征值间隙、KL散度),并结合轻量级循环分类器建模其时序演化,实现了对LLMs和VLMs中异常行为的实时、可解释检测。实验表明,EigenTrack在多个模型和任务上均达到SOTA性能,且具备良好的通用性和实用性。方法创新性强,实验充分,叙述较为清晰。
8.5
SimulRAG: Simulator-based RAG for Grounding LLMs in Long-form Scientific QA 📄 Link 🤖 Kimi 💬 GPT
Xu, Wu, Chinazzi, Niu, Yu, Ma
本文提出了SimulRAG,一种基于科学模拟器的检索增强生成框架,用于提升大语言模型在长篇科学问答中的事实性和信息量。作者设计了通用的模拟器检索接口,实现了文本与数值模态之间的转换,并提出基于不确定性估计和模拟器边界评估(UE+SBA)的声明级生成方法,有效提升了答案质量和验证效率。研究还构建了覆盖气候科学与流行病学的高质量长篇科学问答基准。实验充分,结果显著优于传统RAG方法,具有较强的创新性和实用性。
8.5
Attribution-Guided Decoding 📄 Link 🤖 Kimi 💬 GPT
Komorowski, Golimblevskaia, Achtibat, Wiegand, Lapuschkin, Samek
本文提出了一种名为Attribution-Guided Decoding(AGD)的新解码策略,通过利用归因方法在生成过程中选择对用户定义的‘兴趣区域’(ROI)贡献最大的候选词,显著提升了大语言模型在指令遵循和事实准确性方面的表现。方法创新性强,实验设计全面,涵盖多个模型和任务,并开源了代码,具有良好的可复现性。尽管计算开销较高,但通过熵门控机制有效缓解。整体叙述清晰,但部分技术细节表达可进一步优化。
8.5
Detecting Corpus-Level Knowledge Inconsistencies in Wikipedia with Large Language Models 📄 Link 🤖 Kimi 💬 GPT
Semnani, Burapacheep, Khatua, Atchariyachanvanit, Wang, Lam
本文提出了“语料库级不一致性检测”(CLID)这一新任务,并设计了基于大语言模型的智能体系统CLAIRE,用于在维基百科中自动发现知识矛盾。通过人机协作,作者构建了首个真实维基百科不一致性基准数据集WikiCollide,并首次量化了英文维基百科中约3.3%的事实存在语料库级矛盾。实验表明CLAIRE显著提升了编辑识别矛盾的效率和信心,且方法具有实际应用价值。论文创新性强,实证充分,数据与代码开源,是NLP与知识库质量评估领域的高质量工作。
8.5
ReFACT: A Benchmark for Scientific Confabulation Detection with Positional Error Annotations 📄 Link 🤖 Kimi 💬 GPT
Wang, Preiß, Bugueño, Hoffbauer, Ghajar, Buz, de Melo
本文提出了ReFACT,一个面向科学领域幻觉检测的高质量基准数据集,具有精确的错误位置标注和错误类型分类。该工作聚焦于科学语境下的细粒度幻觉(即‘虚构’)检测,提出了三阶段评估框架:判断、定位与修正。通过在9个主流大模型上的系统评测,揭示了当前模型在科学事实准确性方面的严重不足,尤其是GPT-4o等顶级模型表现仅略高于随机猜测,对LLM作为评判者的范式提出了质疑。数据集基于r/AskScience真实问答构建,结合LLM生成与多人类专家验证,质量高且已开源,具有重要研究价值。
8.5
CLUE: Non-parametric Verification from Experience via Hidden-State Clustering 📄 Link 🤖 Kimi 💬 GPT
Liang, Li, Zhou, Song, Yu, Du, Mi, Yu
本文提出了一种名为Clue的非参数化验证方法,通过隐状态聚类从大语言模型的推理轨迹中提取正确性信号。方法创新性强,基于隐藏状态的几何可分性假设,设计简洁且无需训练,实验充分验证了其在多个任务和模型上的优越性能,尤其在小模型和非数学领域表现出强鲁棒性,叙述整体清晰,具有重要启示意义。
8.5
Comparing Uncertainty Measurement and Mitigation Methods for Large Language Models: A Systematic Review 📄 Link 🤖 Kimi 💬 GPT
Abbasli, Toyoda, Wang, Witt, Ali, Miao, Li, Wei
本文是一篇关于大语言模型(LLM)不确定性度量与校准方法的系统性综述,首次专门聚焦于LLM的校准与不确定性量化问题。作者通过PRISMA方法系统梳理了现有研究,并在两个可靠性数据集上对六种代表性方法进行了实证评估,揭示了当前方法在长文本生成、语义语法信息捕捉方面的局限性。研究发现较小模型更需校准,而大模型通过推理步骤(如思维链)可改善校准效果。论文还开源了代码与数据,为后续研究提供了重要参考。
8.4
Library Hallucinations in LLMs: Risk Analysis Grounded in Developer Queries 📄 Link 🤖 Kimi 💬 GPT
Twist, Zhang, Harman, Yannakoudakis
本文首次系统研究了开发者提示词变体对大语言模型(LLM)生成代码中库幻觉的影响,揭示了现实场景中用户语言和输入错误如何显著提升库名和库成员幻觉的风险。研究设计严谨,覆盖真实开发者查询、拼写错误模拟和提示工程缓解策略,在六种主流LLM上进行了实证分析,并开源了完整代码与数据集。论文创新性强,证据充分,对软件安全和LLM可靠性具有重要实践意义,叙述整体清晰。
8.4
Can Large Language Models Express Uncertainty Like Human? 📄 Link 🤖 Kimi 💬 GPT
Tao, Yeh, Kai, Dong, Huang, Lamb, Yu, Torr, Xu
本文系统研究了大语言模型如何通过自然语言中的模糊表达(如“可能”、“也许”)来表达不确定性,提出了一个轻量级的置信度映射器,并构建了首个大规模、多样化的人工标注犹豫表达数据集。通过精心设计的提示和微调框架,显著提升了语言化置信度(LC)的校准性和区分性。研究兼具理论意义与实用价值,推动了更自然、高效、人性化的人机不确定性沟通方式。
8.4
From Faithfulness to Correctness: Generative Reward Models that Think Critically 📄 Link 🤖 Kimi 💬 GPT
Ma, Shi, Tian, Wang, Chang, Yao
本文提出了一种名为思考监督奖励模型(TRM)的新框架,通过引入句子级别的‘忠实性→推理→正确性’评估流程,赋予奖励模型批判性思维能力,有效区分答案的忠实性与事实正确性。在开放域问答任务中,TRM显著提升了错误识别能力和策略优化效果,实验设计严谨,结果具有说服力,并开源了代码与实现,推动了可解释、精细化奖励建模的发展。
8.4
TruthRL: Incentivizing Truthful LLMs via Reinforcement Learning 📄 Link 🤖 Kimi 💬 GPT
Wei, Yang, Sun, Wang, Shao, Chen, Kachuee, Gollapudi, Liao, Scheffer, Wanga, Kumar, Meng, Yih, Dong
本文提出了TruthRL,一种通过强化学习直接优化大语言模型真实性的新框架。该方法采用简洁而有效的三元奖励机制,明确区分正确回答、幻觉和主动弃权,有效平衡准确性与不确定性表达,显著降低幻觉率并提升整体真实性。实验充分,在多个知识密集型基准和不同模型结构下均验证了其有效性,且深入的消融研究支持了方法设计的合理性。论文创新性强,证据充分,具有良好的通用性和实际应用价值。
8.4
EH-Benchmark Ophthalmic Hallucination Benchmark and Agent-Driven Top-Down Traceable Reasoning Workflow 📄 Link 🤖 Kimi 💬 GPT
Pan, Bai, Zou, Zhou, Zhou, Fu, Tham, Liu
本文提出了EH-Benchmark,一个面向眼科领域的幻觉评估基准,并设计了一个基于多智能体的自上而下可追溯推理框架以缓解大模型在眼科诊断中的幻觉问题。论文创新性强,构建了包含27K问题的多模态眼科基准,系统性地分类了视觉理解与逻辑组合两类幻觉,并提出三阶段智能体框架实现知识检索、任务推理与结果验证。实验充分,代码与数据均已开源,显著提升了模型在眼科任务中的准确性与可解释性。
8.4
Confidence-Aware Routing for Large Language Model Reliability Enhancement: A Multi-Signal Approach to Pre-Generation Hallucination Mitigation 📄 Link 🤖 Kimi 💬 GPT
M
本文提出了一种基于多信号的置信度感知路由系统,用于在生成前主动评估大语言模型的可靠性,从而缓解幻觉问题。方法结合语义对齐、内部收敛性和学习到的置信度信号,实现对查询的智能路由,在多个知识密集型问答基准上显著提升了幻觉检测性能,同时降低了计算开销。创新性强,实验充分,叙述较为清晰,具有良好的通用性和应用前景。
8.4
Can LLMs Refuse Questions They Do Not Know? Measuring Knowledge-Aware Refusal in Factual Tasks 📄 Link 🤖 Kimi 💬 GPT
Pan, Xu, Chen, Dong, Qin, Li, Yu, Jia
本文提出了“拒绝指数”(Refusal Index, RI)这一新指标,用于衡量大语言模型在事实性任务中对未知问题的知识感知拒绝能力。现有指标在评估拒绝行为时存在偏差或依赖代理校准过程,而RI通过Spearman秩相关直接衡量拒绝概率与错误概率之间的关系,具有理论严谨性和实践轻量化优势。作者设计了两阶段评估方法,仅需两次标准推理即可估计RI,并在16个模型和5个数据集上验证了其稳定性、一致性与洞察力。研究发现,当前LLM尽管准确率高,但拒绝行为不可靠,且模型家族比规模更能影响拒绝能力。该工作揭示了传统准确率指标的局限性,提出了更全面的事实性评估范式。
8.4
Neural Message-Passing on Attention Graphs for Hallucination Detection 📄 Link 🤖 Kimi 💬 GPT
Frasca, Bar-Shalom, Ziser, Maron
本文提出了一种基于注意力图的神经消息传递方法CHARM,用于大语言模型中的幻觉检测。该方法将计算轨迹统一建模为属性图,利用图神经网络进行学习,不仅在理论上证明可涵盖现有启发式方法,在多个基准上也显著优于现有方法。创新性强,实验充分,具备良好的零样本迁移能力,方法设计清晰且具有广泛适用潜力。
8.4
Beyond Next Token Probabilities: Learnable, Fast Detection of Hallucinations and Data Contamination on LLM Output Distributions 📄 Link 🤖 Kimi 💬 GPT
Bar-Shalom, Frasca, Lim, Gelberg, Ziser, El-Yaniv, Chechik, Maron
本文提出了一种新的灰盒设置下大语言模型行为分析方法LOS-Net,通过引入LLM输出签名(LOS)这一统一数据表示,充分利用完整token分布和实际token概率进行学习。方法创新性强,理论分析严谨,实验全面,在幻觉检测和数据污染检测任务上显著优于现有基线,并展现出优异的跨模型和跨数据集迁移能力。代码已开源,研究具有重要实践价值。
8.4
SafePassage: High-Fidelity Information Extraction with Black Box LLMs 📄 Link 🤖 Kimi 💬 GPT
Barrow, Patel, Kharkovski, Davies, Schmitt
本文提出了SafePassage,一种面向黑盒大语言模型的高保真信息抽取方法,通过引入‘安全段落’概念,结合三阶段流水线(生成、对齐、评分)有效检测并减少幻觉。实验表明该方法可减少高达85%的幻觉,且仅需1-2小时人工标注即可训练出性能优于LLM评分器的小型高效编码器模型。方法创新性强,证据充分,具备良好通用性与实际部署价值。
8.4
Beyond Token Probes: Hallucination Detection via Activation Tensors with ACT-ViT 📄 Link 🤖 Kimi 💬 GPT
Bar-Shalom, Frasca, Galron, Ziser, Maron
本文提出了一种名为ACT-ViT的新方法,用于检测大语言模型(LLM)生成文本中的幻觉。该方法将LLM内部的激活张量(Activation Tensor)类比为图像,采用Vision Transformer架构进行建模,充分利用了层与token之间的结构信息。相比传统仅依赖单一层-词元对的探针方法,ACT-ViT能够跨多个LLM和数据集联合训练,展现出更强的零样本泛化能力和高效的迁移性能。实验覆盖15个LLM-数据集组合,结果表明其在检测准确性和效率上均显著优于现有方法,且代码已开源,研究完整度高。
8.4
TraceDet: Hallucination Detection from the Decoding Trace of Diffusion Large Language Models 📄 Link 🤖 Kimi 💬 GPT
Chang, Yu, Wang, Chen, Yu, Torr, Gu
本文提出了TraceDet,一种针对扩散大语言模型(D-LLMs)的幻觉检测新框架。该方法创新性地利用D-LLMs多步去噪过程中的解码轨迹,通过信息瓶颈原理自动识别对幻觉生成最具信息量的子轨迹,从而实现更精准的幻觉检测。实验在多个开源D-LLMs和QA数据集上验证了方法的有效性,平均AUROC提升达15.2%,且具备良好的鲁棒性和推理效率。方法设计合理,证据充分,表达整体清晰,具有较强的领域前瞻性和实用价值。
8.4
Semantic Reformulation Entropy for Robust Hallucination Detection in QA Tasks 📄 Link 🤖 Kimi 💬 GPT
Tong, Zhang, Jiang, Liu, Sun, Li
本文提出了一种用于问答任务中幻觉检测的新方法——语义重构熵(SRE),通过输入侧的语义重构和输出侧的混合语义聚类,显著提升了语义层面不确定性估计的鲁棒性。方法创新性强,实验设计充分,在SQuAD和TriviaQA上验证了有效性;叙述较为清晰,但部分技术细节表达可进一步优化。
8.4
Detecting (Un)answerability in Large Language Models with Linear Directions 📄 Link 🤖 Kimi 💬 GPT
Lavi, Milo, Geva
本文提出了一种基于线性方向的轻量级方法,用于检测大语言模型中的问题可回答性。通过在激活空间中识别与不可回答性相关的线性方向,并结合因果干预验证其有效性,该方法在多个抽取式问答数据集上表现出色,且具有良好的跨数据集泛化能力。创新性强,实验设计严谨,代码开源,但叙述清晰度尚有提升空间。
8.4
Knowledge Editing with Subspace-Aware Key-Value Mappings 📄 Link 🤖 Kimi 💬 GPT
Park, Kim, Jo
本文提出了一种基于子空间感知的键值映射知识编辑方法SUIT,通过在关键特征子空间内进行编辑,显著提升了编辑的精确性和知识保留能力。方法创新性强,实验充分,在多个大模型上验证了有效性,且代码数据将开源;叙述较为清晰,但部分技术细节表达可进一步优化。
8.4
ConfRAG: Confidence-Guided Retrieval-Augmenting Generation 📄 Link 🤖 Kimi 💬 GPT
Huang, Xu, Sun, Yan, Sun, Khan, Nguyen, Chen, Kachuee, Lin, Liu, Colak, Kumar, Yih, Dong
本文提出了ConfRAG,一种基于置信度引导的检索增强生成框架,通过ConfQA微调策略显著降低大模型在事实性问答中的幻觉率至5%以下,并实现高效的RAG触发机制,在保持95%以上准确率的同时减少30%以上的不必要检索。方法设计简洁有效,实验充分,跨多个基准验证了其优越性,具有较强的实用价值和推广潜力。
8.4
Precise Information Control in Long-Form Text Generation 📄 Link 🤖 Kimi 💬 GPT
He, Yen, Li, Li, Zeng, Shi, Tsvetkov, Chen, Koh, Zettlemoyer
本文提出了精确信息控制(PIC)这一新任务,旨在评估和提升语言模型在长文本生成中对输入声明的严格忠实性,防止内在幻觉。作者构建了PIC-Bench基准,涵盖多种长文本生成任务,并提出PIC-LM训练框架,在8B模型上显著提升了信息控制能力。实验充分,方法创新,且在下游任务中展现出实际应用价值,是解决生成忠实性问题的重要进展。
8.4
REAL: Reading Out Transformer Activations for Precise Localization in Language Model Steering 📄 Link 🤖 Kimi 💬 GPT
Zhan, Liu, Xie, Cao, Wu
本文提出了一种名为DEAL的新框架,通过向量量化自编码器(VQ-AE)对Transformer注意力头的激活进行解耦,从而实现对大语言模型(LLM)在推理时的行为引导。该方法通过学习行为相关与无关的潜在子空间,并利用分类指标量化每个头的行为相关性得分,实现了更精准的干预头选择与加权。在多个LLM和任务上的实验表明,DEAL显著优于现有方法,平均相对提升20%,最高达81.5%,且具备良好的零样本跨领域泛化能力。方法创新性强,实验充分,叙述整体清晰。
8.4

研究全貌

Pretraining领域在两个批次中共收录近40篇论文,研究方向聚焦于训练效率优化数据策略与缩放规律模型架构创新训练机制与可预测性以及表示与路径对齐分析。效率优化致力于降低计算与推理成本,数据方向探索动态混合与课程设计,架构创新涵盖MoE、低秩结构与扩散模型,而训练机制则强调损失演化规律与模型合并的可预测性。当前热点问题是如何在不牺牲性能的前提下,实现更高效、更可控、更具泛化性的预训练。整体趋势正从“规模优先”转向“机制驱动”,强调理论指导、系统可预测性与功能必要性结构的形成,呈现出精细化、可解释化、工程系统化的演进脉络。

重点方法深度解析

《AutoScale: Scale-Aware Data Mixing for Pre-Training LLMs》 [2407.20177]
该工作挑战“小规模调参、大规模复用”的数据混合惯例,提出数据权重应随模型规模动态调整。其核心是DDO算法,通过小规模实验拟合损失-数据关系,并理论推导出最优权重随数据量指数衰减。在GPT-2上实现28%更快收敛,下游任务平均提升38%。适用于多源数据混合场景,尤其适合大规模训练前的数据策略设计。相比Shukor等人的通用缩放预测,AutoScale更强调动态演化,更具实操指导意义。

《RLP: Reinforcement as a Pretraining Objective》 [2510.01265]
RLP将强化学习前移至预训练,解决CoT依赖后训练的局限。其创新在于定义“信息增益”为奖励:若推理链提升下一token预测概率,则视为正向探索。奖励信号稠密、可微,无需外部验证器。在Qwen3-1.7B上数学与科学任务平均提升19%,Nemotron-12B提升达23%。适用于科学、数学等需强推理能力的预训练任务,是实现“推理内生化”的关键突破。

《Scaling with Collapse: Efficient and Predictable Training of LLM Families》 [2509.25087]
该工作发现最优训练下损失曲线可“坍缩”为统一轨迹,成为高效训练的标志。基于此提出早停与异常检测机制,显著降低调参成本。适用于大规模模型训练监控,是构建可复现训练流程的核心工具。与AutoScale互补:前者关注训练过程可预测性,后者优化数据输入策略,二者结合可实现“输入-过程”双优化。

实践启示

建议在大模型开发中采用“数据动态化 + 训练可预测 + 推理前优化”的组合策略:

  1. 使用AutoScale设计规模感知的数据混合方案;
  2. 引入RLP增强模型内在推理能力,尤其在知识密集型任务中;
  3. 在训练中监控损失坍缩现象,实现早停与异常诊断。

关键注意事项:AutoScale需在小规模上充分验证拟合效果;RLP的奖励设计依赖高质量token预测信号;坍缩分析对超参敏感,需严格遵循缩放律设置。最佳组合为AutoScale + RLP,适用于从科研探索到工业部署的全流程,既能提升效率,又能增强模型智能性。

Train Once, Answer All: Many Pretraining Experiments for the Cost of One 📄 Link 🤖 Kimi 💬 GPT
Bordt, Pawelczyk
本文提出了一种在单次预训练中并行执行多个实验的新范式,显著降低了大规模语言模型实验的计算成本。作者在1.5B参数模型上同时开展了10个独立实验,成功复现了多个已有研究结果,并展示了知识获取、数学推理和数据水印等新探索。实验设计严谨,证据充分,方法具有高度通用性和科研价值,且代码与数据均已开源。
8.7
DocHPLT: A Massively Multilingual Document-Level Translation Dataset 📄 Link 🤖 Kimi 💬 GPT
O'Brien, Malik, de Gibert, Chen, Haddow, Tiedemann
本文提出了DocHPLT,目前最大规模的多语言文档级翻译数据集,覆盖50种语言与英语的1.24亿文档对,包含42.6亿句子。作者采用‘文档优先’的构建方法,从网页爬取中保留完整文档结构和未对齐内容,显著优于传统的句子级重建方法。实验验证了在不同上下文长度下微调大模型的效果,证明使用该数据集微调能显著提升文档翻译质量,尤其对低资源语言效果突出。数据已开源,对推动多语言文档级翻译研究具有重要价值。
8.7
xLSTM Scaling Laws: Competitive Performance with Linear Time-Complexity 📄 Link 🤖 Kimi 💬 GPT
Beck, Schweighofer, Böck, Lehner, Hochreiter
本文系统研究了xLSTM架构在训练和推理中的扩展规律,发现其在计算效率和性能上均优于传统Transformer,尤其在长上下文场景下优势显著。研究覆盖了计算最优与过训练 regime、上下文长度影响及推理延迟,实验规模大、设计严谨,并开源了代码与数据,具有重要实践指导意义。
8.6
The Data-Quality Illusion: Rethinking Classifier-Based Quality Filtering for LLM Pretraining 📄 Link 🤖 Kimi 💬 GPT
Saada, Bethune, Klein, Grangier, Cuturi, Ablin
本文深入分析了当前大模型预训练中广泛使用的分类器式质量过滤(CQF)方法,揭示了一个关键悖论:尽管CQF能提升下游任务性能,但它并未真正使模型更接近高质量数据集的语言建模能力。作者指出,CQF的机制本质上是隐式地对高质量数据集本身进行过滤,偏好那些与低质量数据差异大的样本,而非简单模仿高质量数据分布。通过与重要性采样方法的对比以及提出‘数据条件化’这一新视角,论文挑战了CQF所定义的‘数据质量’的合理性。研究具有深刻洞见,实验设计严谨,对数据筛选机制的理解具有重要指导意义。
8.6
Towards a Comprehensive Scaling Law of Mixture-of-Experts 📄 Link 🤖 Kimi 💬 GPT
Zhao, Fu, Li, Sun, Xie, Wang, Han, Yang, Sun, Zhang, Xu, Wang, Jiang
本文系统研究了MoE模型的缩放规律,提出了一个包含五个关键因素(数据量、总模型规模、激活模型规模、激活专家数、共享专家比例)的联合缩放定律。通过446组受控实验,验证了各因素的非单调影响及耦合关系,并推导出最优配置。研究结果对MoE模型设计具有重要指导意义,创新性强,实验证据充分,方法具备良好通用性,叙述整体清晰。
8.5
RLP: Reinforcement as a Pretraining Objective 📄 Link 🤖 Kimi 💬 GPT
Hatamizadeh, Akter, Prabhumoye, Kautz, Patwary, Shoeybi, Catanzaro, Choi
本文提出了RLP(强化学习预训练)方法,将强化学习的思想引入预训练阶段,通过信息增益作为奖励信号来鼓励模型在预测下一个token前进行链式思考。该方法无需外部验证器,可在普通文本上实现密集、连续的奖励反馈,在多个数学与科学推理任务上显著提升性能,且效果在后续微调中持续增强。实验充分,方法创新性强,具备良好的可扩展性和跨架构适用性,代码已开源。
8.5
Demystifying Synthetic Data in LLM Pre-training: A Systematic Study of Scaling Laws, Benefits, and Pitfalls 📄 Link 🤖 Kimi 💬 GPT
Kang, Ardalani, Kuchnik, Emad, Elhoushi, Sengupta, Li, Raghavendra, Jia, Wu
本文对合成数据在大语言模型预训练中的作用进行了系统性大规模实证研究,涵盖超过1000个模型和10万GPU小时的训练,系统比较了不同类型的合成数据(如重述文本、生成教科书)及其与自然数据的混合策略。研究发现,在预训练中合理混合约30%的高质量重述合成数据可加速收敛5-10倍,并可能降低不可约损失;而纯合成数据或教科书式生成数据则表现不佳,甚至呈现‘模型崩溃’迹象。研究还揭示了生成器模型规模并非越大越好,8B级别已足够。工作具有高度实证价值,为合成数据的实用化提供了清晰指导。
8.5
UniTraj: Learning a Universal Trajectory Foundation Model from Billion-Scale Worldwide Traces 📄 Link 🤖 Kimi 💬 GPT
Zhu, Yu, Zhao, Zhou, Han, Wei, Liang
本文提出了UniTraj,一种面向人类轨迹建模的通用基础模型,并构建了首个大规模、高质量、全球分布的轨迹数据集WorldTrace,包含来自70个国家的245万条轨迹和数十亿个轨迹点。通过多种重采样与掩码策略,UniTraj实现了对不同任务、区域和数据质量的强适应性,在多个下游任务中表现出卓越的泛化能力和可扩展性。论文创新性强,实验充分,数据开源,为轨迹分析领域提供了重要的基础设施和方法论突破。
8.5
3D Foundation Model for Generalizable Disease Detection in Head Computed Tomography 📄 Link 🤖 Kimi 💬 GPT
Zhu, Huang, Tang, Musthyala, Yu, Chen, Vega, O'Donnell, Dehkharghani, Frontera, Masurkar, Melmed, Razavian
本文提出了一种用于头部CT影像通用疾病检测的3D基础模型FM-HCT,采用自监督学习在超过36万例无标注3D头颅CT扫描上进行预训练,结合DINO式自蒸馏和MAE式掩码图像建模策略,实现了对多种神经系统疾病的高效检测。模型在10项下游任务中表现出显著优于从零训练和其他现有3D CT基础模型的性能,尤其在少样本学习和跨机构外部验证中展现出强大的泛化能力。研究设计严谨,实验充分,结果具有临床转化潜力,是医学影像基础模型领域的一项高质量工作。
8.5
Pretraining Large Language Models with NVFP4 📄 Link 🤖 Kimi 💬 GPT
NVIDIA, Abecassis, Agrusa, Ahn, Alben, Alborghetti, Andersch, Arayandi, Bjorlin, Blakeman, Briones, Buck, Catanzaro, Choi, Chrzanowski, Chung, Cui, Dai, Rouhani, del Mundo, Donia, Eryilmaz, Estela, Goel, Goncharov, Guvvala, Hesse, Hewett, Hum, Kapasi, Khailany, Khona, Knight, Kondratenko, Krashinsky, Lanir, Layton, Lightstone, Lo, Micikevicius, Mishra, Moon, Narayanan, Ni, Paithankar, Pasumarthi, Patel, Patwary, Poojary, Prasad, Priyadarshi, Qin, Ren, Rybakov, Sakr, Satheesh, Sergienko, Shamis, Shankar, Sharma, Shoeybi, Siu, Smelyanskiy, Stosic, Stosic, Su, Sun, Tajbakhsh, Thomas, Tredak, Tsykunov, Vaithilingam, Vavre, Venkatesan, Waleffe, Wan, Wang, Wang, Wei, Wu, Wu, Wyss, Xu, Xue, Yang, Zhai, Zhang, Zhu, Zhu
本文提出了一种基于NVFP4格式的4比特浮点数预训练大语言模型的方法,结合随机哈达玛变换、二维量化、随机舍入和选择性高精度层等技术,成功实现了在120亿参数模型上长达10万亿token的稳定训练,性能与FP8基准相当。这是首次公开报道的在超大规模下实现4比特精度训练的工作,具有重要工程和算法意义。方法创新性强,实验充分,且代码已开源,为未来高效大模型训练提供了可行路径。
8.5
Conda: Column-Normalized Adam for Training Large Language Models Faster 📄 Link 🤖 Kimi 💬 GPT
Wang, Zhou, Dong, Li, Li, Zhou, Lao, Fang, Lin
本文提出了Column-Normalized Adam(Conda),一种用于加速大语言模型训练的新型优化器。Conda通过在正交子空间中进行列归一化的二阶矩估计,兼顾了Adam的坐标级自适应性和Muon的谱条件优化优势,在LLaMA和GPT-2系列模型上实现了2~2.5倍于AdamW的收敛速度。方法创新性强,实验充分,代码已开源,具有较高的实用价值和推广潜力。
8.5
Predicting Training Re-evaluation Curves Enables Effective Data Curriculums for LLMs 📄 Link 🤖 Kimi 💬 GPT
Bergsma, Dey, Hestness
本文提出了训练重评估曲线(TREC)这一新诊断工具,用于分析大语言模型训练过程中数据保留的动态特性,并发现将高质量数据置于TREC低谷处可显著提升模型性能。作者进一步证明TREC可通过AdamW优化器的指数移动平均(EMA)系数提前预测,从而实现无需试错的主动课程设计。研究在多个模型规模和训练设置下验证了方法有效性,并成功应用于解释现有训练策略、分析MoE架构以及改进3.9B模型的持续预训练。整体创新性强,实验证据充分,方法具有良好的通用性和工程指导价值。
8.5
AutoScale: Scale-Aware Data Mixing for Pre-Training LLMs 📄 Link 🤖 Kimi 💬 GPT
Kang, Sun, Wen, Chen, Song, Mahmood, Jia
本文提出了AutoScale,一种用于大规模语言模型预训练的自动化数据混合优化方法。作者发现最优数据组成随训练数据规模变化而变化,传统在小规模上优化的权重无法直接迁移到大规模训练中。为此,他们提出DDO(Direct Data Optimization)算法,在小规模上通过双层优化直接求解最优数据权重,并基于理论分析发现最优权重随数据规模呈指数规律变化,进而提出AutoScale预测器,利用小规模结果外推大规模的最优数据组成。实验在GPT-2和BERT架构上验证了方法的有效性,显著加快了训练收敛速度,并在下游任务上取得更好性能。方法创新性强,实验充分,且代码开源,具有较高实用价值。
8.5
CoLA: Compute-Efficient Pre-Training of LLMs via Low-Rank Activation 📄 Link 🤖 Kimi 💬 GPT
Liu, Zhang, Wang, Yan, Yang, Hovland, Nicolae, Cappello, Tang, Zhang
本文提出了一种名为CoLA的高效大语言模型预训练方法,通过在低秩权重间引入非线性激活,显式利用模型激活的低秩结构,在保持全秩性能的同时显著降低计算、内存和参数开销。方法创新性强,实验充分,涵盖从60M到7B的LLaMA模型,结果表明计算成本减半、训练吞吐提升1.86倍,且推理更高效。代码已开源,系统实现优化到位,整体质量高。
8.5
Influence-driven Curriculum Learning for Pre-training on Limited Data 📄 Link 🤖 Kimi 💬 GPT
Schoenegger, Thoma, Blevins, Roth
本文提出了一种基于训练数据影响(influence)的课程学习方法,用于数据受限场景下的语言模型预训练。作者摒弃传统基于人类直觉的难度度量,转而使用梯度相似性估计样例对模型输出的影响,构建模型中心化的课程。实验表明,该方法在RoBERTa和Llama模型上显著优于随机训练,最高提升超过10个百分点。研究设计严谨,包含多种课程变体、多数据集对比、深入的源数据分布与损失轨迹分析,并开源了代码与模型,具有较强说服力。
8.5
Scaling Laws for Optimal Data Mixtures 📄 Link 🤖 Kimi 💬 GPT
Shukor, Bethune, Busbridge, Grangier, Fini, El-Nouby, Ablin
本文提出了一种基于缩放律(scaling laws)来系统化确定最优数据混合比例的方法,能够准确预测不同模型规模、训练步数和数据域权重下的模型性能。该方法在大语言模型、原生多模态模型和大视觉模型三种大规模场景中得到验证,展示了良好的外推能力和实用性。研究通过少量小规模实验拟合缩放律,即可指导大规模训练的数据配比选择,显著优于传统的试错法。整体创新性强,实验证据充分,方法具有良好的通用性和工程价值。
8.5
Prior-based Noisy Text Data Filtering: Fast and Strong Alternative For Perplexity 📄 Link 🤖 Kimi 💬 GPT
Seo, Kim, Kim, Yeo
本文提出了一种基于词频先验的文本数据过滤方法,利用语言学洞见(如词汇密度和功能词/内容词分布)来快速识别噪声文本。该方法在20个下游任务上超越了当前主流的困惑度(PPL)过滤方法,且速度提升超过1000倍。方法简洁高效,代码开源,实验证据充分,具有良好的跨语言和跨模态(如代码、数学)适用性,是数据预处理领域的一项实用且有潜力的创新。
8.5
Positional Encoding via Token-Aware Phase Attention 📄 Link 🤖 Kimi 💬 GPT
Wang, Shen, Munos, Zhan, Tian
本文提出了一种新的位置编码方法Token-Aware Phase Attention(TAPA),通过引入可学习的相位函数来消除RoPE中存在的距离依赖偏差,从而显著提升模型在长上下文建模中的表现。作者从理论上证明了RoPE存在固有的注意力偏差,并提出了TAPA这一通用且无需后处理调参的解决方案。实验在LLaMA3 7B架构上进行,结果显示TAPA在32k和64k上下文长度下显著优于RoPE及其变体(如PI、YaRN),且无需位置重缩放或超参数调整。方法创新性强,理论分析深入,实验充分,具备良好的通用性和工程价值。
8.4
Long-Context Generalization with Sparse Attention 📄 Link 🤖 Kimi 💬 GPT
Vasylenko, Pitorro, Martins, Treviso
本文提出了一种基于稀疏注意力的长上下文建模方法ASEntmax,通过引入可学习温度参数的α-entmax机制,有效缓解了注意力分散、表征坍塌和梯度挤压等问题。结合新型位置编码NAPE,在多项合成任务上实现了显著的长度外推性能提升,尤其在超长序列(如65K)下表现突出。方法创新性强,理论分析深入,实验设计严谨,且代码已开源,具有较高的研究价值。
8.4
Towards Foundation Models for Zero-Shot Time Series Anomaly Detection: Leveraging Synthetic Data and Relative Context Discrepancy 📄 Link 🤖 Kimi 💬 GPT
Lan, Le, Li, He, Wang, Liu, Zhang
本文提出了一种面向零样本时间序列异常检测的新型基础模型TimeRCD,通过引入相对上下文差异(RCD)的新预训练范式,克服了传统重构方法存在的目标不匹配问题。作者设计了一个大规模、多样化的合成数据集,并结合标准Transformer架构,实现了在多种真实数据集上的零样本优越性能。方法创新性强,实验充分,具备良好的可迁移性和应用前景,叙述整体清晰,但在技术细节表达上略有提升空间。
8.4
What Matters More For In-Context Learning under Matched Compute Budgets: Pretraining on Natural Text or Incorporating Targeted Synthetic Examples? 📄 Link 🤖 Kimi 💬 GPT
Sabry, Belz
本文系统研究了在相同计算预算下,预训练时引入定向合成数据(如前向/反向复制模式)是否比纯自然文本更能促进上下文学习(ICL)。作者提出了Bi-Induct方法,在多个模型规模上进行了控制变量实验,结合行为表现、机制探针和消融分析,发现尽管合成数据能加速诱导头的出现,但并不一定带来更好的ICL性能;相反,纯自然文本训练出的模型具有更“关键性”的诱导电路。研究挑战了直觉认知,强调了“功能必要性”而非“激活存在”的重要性,具有重要的理论和实践意义。
8.4
Tracing the Representation Geometry of Language Models from Pretraining to Post-training 📄 Link 🤖 Kimi 💬 GPT
Li, Agrawal, Ghosh, Teru, Santoro, Lajoie, Richards
本文通过谱分析方法系统研究了大语言模型从预训练到后训练过程中表示几何的演化规律,发现了三个非单调的几何相变阶段:'预热'、'熵寻求'和'压缩寻求',并揭示了这些阶段与模型能力(如n-gram记忆和长程泛化)之间的关联。研究进一步将不同后训练方法(SFT、DPO、RLVR)映射到特定的几何动态,提供了理解训练过程的新视角。方法创新性强,实验证据充分,具有较高的理论和实践价值。
8.4
Let LLMs Speak Embedding Languages: Generative Text Embeddings via Iterative Contrastive Refinement 📄 Link 🤖 Kimi 💬 GPT
Tsai, Chen, Li, Chen, Tsai, Lin
本文提出了一种名为GIRCSE的生成式文本嵌入框架,通过迭代对比精炼机制,利用大语言模型的自回归生成能力逐步优化语义表示。该方法突破了传统编码器单步提取嵌入的范式,引入软令牌生成与多步对比监督,在MTEB和指令跟随任务上均取得优异表现,并展现出测试时计算扩展的新特性。创新性强,实验证据充分,方法设计具有良好的通用性和迁移潜力,叙述整体清晰但部分技术细节可进一步优化。
8.4
LLaDA-MoE: A Sparse MoE Diffusion Language Model 📄 Link 🤖 Kimi 💬 GPT
Zhu, You, Xing, Huang, Liu, Zhuang, Lu, Wang, Wang, Wei, Guo, Hu, Ye, Chen, Li, Tang, Feng, Hu, Zhou, Zhang, Lan, Zhao, Zheng, Li, Li, Wen
本文提出了LLaDA-MoE,一种将稀疏专家混合(MoE)架构引入掩码扩散语言模型的新方法。该模型在仅激活1.4B参数的情况下,性能超越了此前更大的密集型扩散语言模型,并在指令微调后与Qwen2.5-3B-Instruct相当。研究创新性强,实验充分,开源模型权重,推动了扩散语言模型的高效化发展。
8.4
Scaling with Collapse: Efficient and Predictable Training of LLM Families 📄 Link 🤖 Kimi 💬 GPT
Bergsma, Zhang, Dey, Muhammad, Gosal, Hestness
本文提出了“训练损失曲线坍缩”(collapse)作为大语言模型高效可预测训练的核心机制,系统分析了AdamW时间尺度τ、TPP和学习率调度对损失曲线形状的影响,并在真实大规模LLM家族Celerity中验证了坍缩现象。坍缩不仅作为计算高效训练的标志,还被用于早期诊断训练异常和超参数调优中的早停,具有显著的工程价值。方法创新性强,实验充分,叙述整体清晰。
8.4
Pretrained Hybrids with MAD Skills 📄 Link 🤖 Kimi 💬 GPT
Roberts, Guo, Gao, GNVV, Cromp, Wu, Duan, Sala
本文提出了Manticore框架,一种自动化构建预训练混合语言模型架构的新方法,通过引入可学习的线性投影器和凸组合权重,实现了跨架构模型组件的融合与端到端微调。该方法解决了混合架构设计中依赖人工设计和无法复用预训练模型的两大挑战,在Long Range Arena和MAD任务上取得了优于现有手动设计混合模型的性能,并展示了通过外部任务(如MAD任务)编程混合权重的能力。整体创新性强,实验充分,方法具有良好的通用性和迁移潜力。
8.4
MoveGPT: Scaling Mobility Foundation Models with Spatially-Aware Mixture of Experts 📄 Link 🤖 Kimi 💬 GPT
Han, Yuan, Ding, Feng, Meng, Li
本文提出了TrajMoE,一种基于空间感知混合专家机制的统一人类移动性建模框架。该方法通过语义化的位置编码和可迁移的混合专家结构,有效解决了跨城市移动性建模中的空间语义不一致与行为模式异质性问题。在多个真实城市数据集上的实验表明,该模型在仅用5%目标城市数据微调的情况下,性能超越全量训练的基线模型,并在预训练后实现高达27%的相对性能提升。方法创新性强,实验充分,具备良好的可扩展性和迁移潜力,是迈向通用移动性基础模型的重要一步。
8.4
Model Merging Scaling Laws in Large Language Models 📄 Link 🤖 Kimi 💬 GPT
Wang, Gu, Zhang, Zhou, Yan, Xie, Wang, Yuan, Yang
本文提出了首个针对大语言模型合并的实证缩放定律,揭示了模型大小与专家数量之间的系统性关系。通过大规模实验验证,发现合并性能遵循‘地板+尾部’的幂律形式,且该规律在多种架构、方法和领域中均高度一致。作者进一步提供了理论解释,并展示了如何利用该定律进行预算规划和决策优化,显著提升了模型合并的可预测性和实用性。研究创新性强,证据充分,具有重要理论与应用价值。
8.4
GraphPFN: A Prior-Data Fitted Graph Foundation Model 📄 Link 🤖 Kimi 💬 GPT
Eremeev, Platonov, Bazhenov, Babenko, Prokhorenkova
本文提出了GraphPFN,一种基于先验数据拟合的图基础模型,通过合成图数据预训练,结合注意力机制的消息传递层增强图结构建模能力。方法创新性强,实验充分,在多个真实世界图数据集上实现了最先进的性能,尤其在微调后显著优于现有图基础模型和传统GNN。论文开源了代码,增强了可复现性。
8.4
Understanding and Enhancing Mask-Based Pretraining towards Universal Representations 📄 Link 🤖 Kimi 💬 GPT
Dong, Wang, Kluger
本文提出了一种基于高维线性回归的理论框架,用于解释掩码预训练在不同领域中的行为,并据此设计了一种简单而有效的预训练策略R²MAE。该方法在视觉、语言、DNA序列和单细胞基因表达等多个领域均显著优于现有方法,理论分析深入且实验验证充分。创新性强,证据充分,方法具有良好的通用性和跨领域迁移潜力,代码已开源。
8.4
Statistical Advantage of Softmax Attention: Insights from Single-Location Regression 📄 Link 🤖 Kimi 💬 GPT
Duranthon, Marion, Boyer, Loureiro, Zdeborová
本文通过统计物理方法对注意力机制中Softmax的优越性进行了系统性理论分析,提出了单位置回归模型(SLR)来形式化信息检索任务。研究表明,在种群风险下Softmax注意力可达到贝叶斯最优,而线性注意力存在根本性性能差距。该分析进一步扩展到有限样本场景,揭示了Softmax在实际学习中的持续优势。论文理论严谨,结合数值验证,为理解注意力机制提供了深刻洞见。
8.4
Attention Layers Add Into Low-Dimensional Residual Subspaces 📄 Link 🤖 Kimi 💬 GPT
Wang, Ge, Shu, He, Qiu
本文揭示了Transformer模型中注意力输出具有显著的低秩结构,这一现象普遍存在于不同模型和数据集中,并指出该结构是稀疏字典学习中“死特征”问题的根本原因。基于此,作者提出了“活跃子空间初始化”(Active Subspace Initialization, ASI)方法,将稀疏自编码器(SAE)的特征初始化对齐到激活空间的主成分方向,显著减少了死特征比例(从87%降至1%以下),同时提升了重建性能。方法在多种模型和任务中验证有效,具有较强的理论洞察和实用价值。
8.4
Causal Attention with Lookahead Keys 📄 Link 🤖 Kimi 💬 GPT
Song, Sun, Yuan, Gu
本文提出了一种名为CASTLE的新型因果注意力机制,通过引入可随上下文动态更新的‘前瞻键’(lookahead keys),在不破坏自回归性质的前提下增强模型对全局上下文的建模能力。方法设计新颖,理论推导严谨,并通过等效并行化算法实现高效训练与推理。实验结果表明其在语言建模和下游任务上一致优于标准因果注意力,且CASTLE-SWL进一步提升了效率。整体创新性强,证据充分,具备良好的通用潜力。
8.4
Planner Aware Path Learning in Diffusion Language Models Training 📄 Link 🤖 Kimi 💬 GPT
Peng, Bezemek, Rector-Brooks, Zhang, Zhang, Bronstein, Bose, Tong
本文提出了一种名为Planner Aware Path Learning(PAPL)的新训练方法,旨在解决扩散语言模型在训练与推理阶段因使用规划器(planner)而产生的路径不匹配问题。作者理论证明了标准ELBO在非均匀解码路径下不再成立,并推导出新的规划感知证据下界(P-ELBO),进而提出PAPL这一仅需一行代码修改的高效训练方案。实验在蛋白质序列、文本和代码生成等多个领域均取得显著性能提升,方法创新性强,证据充分,叙述较为清晰,具有良好的通用性和实用价值。
8.4
Pretrain-Test Task Alignment Governs Generalization in In-Context Learning 📄 Link 🤖 Kimi 💬 GPT
Letey, Zavatone-Veth, Lu, Pehlevan
本文研究了上下文学习(ICL)中预训练任务与测试任务对齐性对泛化性能的影响,提出了一种新的对齐度量指标,并在可解模型和非线性Transformer中验证了其有效性。论文理论分析严谨,创新性强,实验设计充分,揭示了任务对齐与泛化之间的深刻关系,包括预训练任务多样性可能损害性能的反直觉现象。尽管表述较为数学化,但整体逻辑清晰,贡献显著。
8.4
Composer: A Search Framework for Hybrid Neural Architecture Design 📄 Link 🤖 Kimi 💬 GPT
Acun, Sinha, Ardalani, Bae, Golden, Lin, Madhyastha, Sun, Yadwadkar, Wu
本文提出了Composer,一种用于混合神经网络架构设计的自动化搜索框架,能够高效地在小规模上搜索并外推至大规模语言模型。该方法在多个模型尺寸和训练预算下均显著优于Llama 3.2及现有SOTA模型,不仅提升了验证损失和下游任务准确率,还改善了训练与推理效率。论文设计系统、实验充分,创新性强,具备良好的可扩展性和实际应用价值。
8.4
SSTAG: Structure-Aware Self-Supervised Learning Method for Text-Attributed Graphs 📄 Link 🤖 Kimi 💬 GPT
Liu, Yin, Bo, Hao, Liu, Zhong, Ma, Wang
本文提出了一种面向文本属性图的结构感知自监督学习方法SSTAG,通过融合大语言模型(LLM)的语义理解能力与图神经网络(GNN)的结构建模能力,实现了跨域知识迁移和高效推理。方法设计新颖,实验充分,在多个下游任务上显著优于现有方法,尤其在跨域迁移和大规模图场景下表现突出。尽管部分技术细节表述略显复杂,但整体贡献明确,具有较强的实用性和推广价值。
8.4

研究全貌

Multimodal领域在6个批次中呈现出高度一致的研究聚焦:多模态模型的鲁棒性增强高效推理与训练架构设计跨模态对齐与生成控制可解释性与安全性评估。各方向均强调从“性能驱动”转向“机制理解与实用落地”,尤其关注模型在真实场景中的可靠性、可控性与部署效率。当前热点问题集中在视觉幻觉缓解、细粒度感知、模态冲突、捷径学习识别与生成一致性控制。整体趋势显示,研究正从单一模型扩展转向“数据—架构—训练—评估”全链路协同优化,跨批次演进脉络清晰:早期关注能力构建,近期聚焦缺陷诊断与系统性修复,形成“发现问题—机制分析—闭环优化”的成熟研究范式。

重点方法深度解析

从所有批次中,以下三个方法最具代表性与启发性:

《ReLoop: "Seeing Twice and Thinking Backwards" via Closed-loop Training》 提出闭环训练框架,解决多模态幻觉问题。其核心是引入冻结的一致性反馈插件(CFP),通过语义重建与注意力对齐反向验证输出是否可还原输入,实现内部自洽。在多个VQA任务上显著降低幻觉率,无需外部标注或验证器。适用于医疗问答、法律图像分析等高可靠性场景。

《HiDe: Rethinking The Zoom-IN method in High Resolution MLLMs via Hierarchical Decoupling》 针对高分辨率理解中的背景干扰问题,提出分层解耦框架:Token-wise Attention Decoupling(TAD)定位关键区域,Layout-Preserving Decoupling(LPD)剥离背景并重建紧凑表示。无需训练,在Qwen2.5-VL上V*Bench达92.1%,内存降低75%。适合细粒度视觉问答与资源受限部署。

《Stitch: Training-Free Position Control in Multimodal Diffusion Transformers》 解决文本到图像生成中的空间控制难题。采用“生成-裁剪-拼接”机制,利用LLM生成边界框,通过注意力头在潜空间隔离对象并拼接。在PosEval上Qwen-Image提升54%,FLUX提升218%,即插即用。适用于工业设计、广告生成等需精确布局的场景。

三者形成互补:ReLoop保障输出一致性,HiDe提升输入理解精度,Stitch增强生成可控性。可组合为“理解—验证—控制”闭环系统,适用于高风险、高精度的多模态应用。

实践启示

建议在大模型应用开发中采用“感知增强+一致性验证+生成控制”三位一体策略:

  • 高分辨率场景优先集成HiDe类解耦方法提升效率与精度;
  • 高可靠性任务(如医疗、金融)必须引入ReLoop类闭环验证机制;
  • 精确生成需求(如UI、广告)应采用Stitch类无需训练的空间控制方案。

实现时需注意:闭环模块应轻量化以避免训练不稳定;解耦策略依赖高质量注意力机制,需验证模型支持性;生成控制需结合真实数据闭环测试,防止合成偏差。推荐组合:HiDe + ReLoop + Stitch,构建从输入解析到输出控制的全链路可信多模态系统。

Learning to See Before Seeing: Demystifying LLM Visual Priors from Language Pre-training 📄 Link 🤖 Kimi 💬 GPT
Han, Tong, Fan, Ren, Sinha, Torr, Kokkinos
本文系统研究了大语言模型(LLM)在纯文本预训练中如何发展出视觉先验知识,提出视觉先验可分解为感知先验和推理先验,并揭示了二者不同的来源与扩展规律。研究基于超过100个受控实验和50万GPU小时的计算资源,提出了数据驱动的视觉感知LLM预训练策略,并发布了新的评估基准MLE-Bench。工作具有高度创新性,实证充分,对多模态模型设计具有深远指导意义。
8.7
RealUnify: Do Unified Models Truly Benefit from Unification? A Comprehensive Benchmark 📄 Link 🤖 Kimi 💬 GPT
Shi, Dong, Ding, Wang, Zhu, Zhou, Liu, Tian, Wang, Wang, Liu, Zeng, Chen, Wang, Zhang, Chen, Tong, Li, Fu, Liu, Wang, Yang, Zhang, Wan, Zhang, Liu
本文提出了RealUnify,首个专门用于评估统一多模态模型中理解与生成能力协同效应的综合性基准。该基准通过‘理解增强生成’和‘生成增强理解’两大任务轴,结合端到端与分步评估协议,系统检验了当前统一模型是否真正实现能力融合。实验评估了12个主流统一模型和6个专用基线,发现尽管模型具备基础能力,但在端到端任务中难以实现有效协同,表明架构统一本身不足以带来性能增益。研究设计严谨,问题深刻,对统一模型的发展方向具有重要指导意义。
8.7
Radiology's Last Exam (RadLE): Benchmarking Frontier Multimodal AI Against Human Experts and a Taxonomy of Visual Reasoning Errors in Radiology 📄 Link 🤖 Kimi 💬 GPT
Datta, Buchireddygari, Kaza, Bhalke, Singh, Pandey, Vasipalli, Karnwal, Bhatti, Maroo, Hebbar, Joseph, Kaur, Singh, V, Prasad, Mahajan, Arisha, Vanagundi, Nandy, Vuthoo, Rajvanshi, Kondaveeti, Gunjal, Jain, Jain, Agrawal
本文提出了一个名为Radiology's Last Exam (RadLE)的新型基准测试,用于评估前沿多模态AI模型在复杂放射学诊断任务中的表现,并与人类专家进行对比。研究设计严谨,通过真实临床场景下的‘spot diagnosis’任务揭示了当前AI系统在挑战性病例中远逊于放射科医生的现实。作者还提出了一个系统的视觉推理错误分类体系,深入分析了AI模型的失败模式,包括感知、解释和沟通错误以及认知偏差。该工作不仅提供了有力的实证证据,也对AI在医学影像中的安全应用提出了重要警示,具有显著的学术与临床指导价值。
8.7
HiDe: Rethinking The Zoom-IN method in High Resolution MLLMs via Hierarchical Decoupling 📄 Link 🤖 Kimi 💬 GPT
Liu, Hu, Zou, Wu, Xu, Zheng
本文提出了一种名为HiDe的层次解耦框架,用于提升多模态大语言模型在高分辨率图像理解中的性能。作者通过系统性解耦分析,指出性能瓶颈主要源于复杂背景干扰而非物体尺寸,并据此设计了无需训练的Token-wise Attention Decoupling(TAD)和Layout-Preserving Decoupling(LPD)模块,实现了精准的视觉区域定位与紧凑表示。方法在多个高分辨率基准上达到SOTA,甚至超越基于强化学习的训练方法,同时显著降低内存开销。论文创新性强,实验充分,代码开源,具有较高的实用价值和推广潜力。
8.6
Video models are zero-shot learners and reasoners 📄 Link 🤖 Kimi 💬 GPT
Wiedemer, Li, Vicol, Gu, Matarese, Swersky, Kim, Jaini, Geirhos
本文系统性地展示了大型视频模型Veo 3在未经过任务特定训练的情况下,能够零样本解决涵盖感知、建模、操作和视觉推理等62项视觉任务的能力。研究通过大量定性与定量实验证明,视频模型正朝着通用视觉基础模型演进,其逐帧生成过程可视为‘帧链式推理’(Chain-of-Frames),类比语言模型的思维链。尽管性能尚未超越专用模型,但Veo 3相比Veo 2的显著提升表明该路径具有巨大潜力。论文立意深远,证据充分,为视觉领域向统一基础模型转型提供了有力支持。
8.6
EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing 📄 Link 🤖 Kimi 💬 GPT
Wu, Jiang, Ku, Nie, Liu, Chen
本文提出了EditReward,一种面向指令引导图像编辑任务的人类对齐奖励模型。作者构建了大规模、高质量的人类偏好数据集EditReward-Data(20万对),并基于此训练了一个多维度不确定性感知的奖励模型,在多个权威基准上实现了优于GPT-4o、GPT-5等闭源模型的人类相关性表现。此外,提出的新基准EditReward-Bench更具挑战性,能更好地区分模型性能。实验证明该模型可用于数据筛选,显著提升下游编辑模型的训练效果。整体工作系统完整,创新性强,证据充分,且承诺开源数据、模型与代码,对社区推动意义重大。
8.6
MMPlanner: Zero-Shot Multimodal Procedural Planning with Chain-of-Thought Object State Reasoning 📄 Link 🤖 Kimi 💬 GPT
Tabassum, Guo, Ma, Eldardiry, Lourentzou
本文提出了MMPlanner,一种零样本多模态程序规划方法,通过引入对象状态推理链(OSR-CoT)提示机制,显式建模对象状态变化,生成一致的图文步骤计划。作者还设计了自动评估框架,包括文本计划评分、跨模态对齐评分和视觉步骤排序任务,在RecipePlan和WikiPlan数据集上取得了显著性能提升。方法创新性强,实验充分,评估高效且与人类判断高度相关,具备良好的通用性和实用价值。
8.6
Data Selection for Fine-tuning Vision Language Models via Cross Modal Alignment Trajectories 📄 Link 🤖 Kimi 💬 GPT
Naharas, Nguyen, Bulut, Bateni, Mirrokni, Mirzasoleiman
本文提出了一种名为XMAS的数据选择方法,用于提升大视觉语言模型(LVLM)指令微调的数据效率。作者从优化角度出发,理论证明了跨模态注意力矩阵的相似性可反映样本梯度的相似性,进而通过追踪小代理模型的跨模态注意力轨迹对样本聚类,实现冗余数据剔除。实验表明,XMAS在多个数据集上显著优于现有方法,能减少50%~85%的训练数据而保持性能,且具备理论支撑和高效性。方法创新性强,实验充分,叙述整体清晰。
8.6
From Bias to Balance: Exploring and Mitigating Spatial Bias in LVLMs 📄 Link 🤖 Kimi 💬 GPT
Zhu, Bai, Chen, Xiang, Guan, Yu, Zhang
本文系统研究了大规模视觉语言模型(LVLMs)中的空间偏差问题,提出了一种简单而有效的平衡位置分配机制(BaPA),通过为所有图像标记分配相同的位置嵌入来缓解因RoPE等位置编码导致的跨模态交互不平衡。研究设计严谨,实验证明BaPA在无需重新训练的情况下显著提升了模型的空间鲁棒性,并在多个多模态基准上取得性能提升。方法创新性强,证据充分,且代码与数据开源,具有较高的可复现性和推广价值。
8.6
A Culturally-diverse Multilingual Multimodal Video Benchmark & Model 📄 Link 🤖 Kimi 💬 GPT
Shafique, Vayani, Maaz, Rasheed, Dissanayake, Kurpath, Hmaiti, Inoue, Lahoud, Rashid, Quasem, Fatima, Vidal, Maslych, More, Baliah, Watawana, Li, Farestam, Schaller, Tymtsiv, Weber, Cholakkal, Laptev, Satoh, Felsberg, Shah, Khan, Khan
本文提出了首个面向多语言、多模态视频理解的基准数据集ViMUL-Bench,覆盖14种语言(含多种低资源语言)和15个文化相关领域,包含8k人工验证的高质量问答样本,并配套发布了120万规模的多语言视频训练数据集及一个简单但有效的多语言视频大模型ViMUL。研究聚焦语言与文化包容性,填补了现有视频大模型在跨语言、跨文化评估方面的空白。方法设计合理,实验充分,数据和代码已开源,具有重要推动意义。
8.6
Object Detection with Multimodal Large Vision-Language Models: An In-depth Review 📄 Link 🤖 Kimi 💬 GPT
Sapkota, Karkee
本文是一篇关于多模态大视觉语言模型(LVLMs)在目标检测中应用的深度综述,系统梳理了2022至2025年间的技术进展,涵盖架构创新、训练范式、输出灵活性及与传统方法的对比。论文结构清晰,内容全面,提出了零样本检测、上下文理解增强等关键优势,并指出了定位精度不足等挑战,提出了未来混合架构的发展方向。整体上,该综述为该领域提供了有价值的参考框架。
8.6
Inducing Dyslexia in Vision Language Models 📄 Link 🤖 Kimi 💬 GPT
Honarmand, Sharma, AlKhamissi, Mehrer, Schrimpf
本文提出了一种基于视觉语言模型(VLM)模拟阅读障碍(dyslexia)的计算框架,通过功能定位并选择性消融模型中类比于人脑视觉词形区(VWFA)的神经单元,成功复现了人类阅读障碍的核心特征:选择性阅读能力下降,尤其是语音处理缺陷,而一般视觉推理和语言理解能力保持完整。研究方法创新性强,实验设计严谨,结合认知神经科学范式与大规模模型分析,提供了因果性证据,并开源了代码,具有重要理论和应用价值。
8.6
SCAM: A Real-World Typographic Robustness Evaluation for Multimodal Foundation Models 📄 Link 🤖 Kimi 💬 GPT
Westerhoff, Purelku, Hackstein, Loos, Pinetzki, Rodner, Hufe
本文提出了SCAM,目前最大且最多样化的真实世界字体攻击数据集,用于评估多模态基础模型在面对嵌入误导性文本图像时的鲁棒性。研究系统评估了多种视觉-语言模型(VLMs)和大型视觉-语言模型(LVLMs)在真实与合成攻击下的表现,揭示了模型架构、训练数据和语言模型规模对鲁棒性的影响。论文方法严谨,数据和代码完全开源,为后续研究提供了重要资源。创新性高,实证充分,通用性强,叙述整体清晰。
8.5
Why Reinforcement Fine-Tuning Enables MLLMs Preserve Prior Knowledge Better: A Data Perspective 📄 Link 🤖 Kimi 💬 GPT
Zhang, Dong, Zhang, Zhao, Zhou, Xi, Jin, Fan, Zhou, Wu, Fu, Ji, Gui, Huang, Chen
本文系统研究了监督微调(SFT)与强化微调(RFT)对多模态大语言模型(MLLM)知识保留的影响,创新性地引入拼图任务作为全新挑战任务。实验发现SFT虽学习快但导致严重遗忘,而RFT学习慢却能更好保持原有知识。作者从数据分布和学习动力学角度深入分析,指出RFT生成的高概率样本更契合模型先验,从而减少干扰。进一步地,使用RFT生成的正确样本进行SFT训练,可兼顾快速学习与知识保留。研究揭示了微调数据分布的关键作用,理论分析扎实,实验设计严谨,对持续学习和模型稳定性具有重要启示。
8.5
Unlocking the Essence of Beauty: Advanced Aesthetic Reasoning with Relative-Absolute Policy Optimization 📄 Link 🤖 Kimi 💬 GPT
Liu, Hu, Jin, Dou, Shi, Shao, Gui, Huang
本文提出了一种用于图像美学评估(IAA)的新型框架Aes-R1,结合了自动构建高质美学推理数据的AesCoT管道与创新的相对-绝对策略优化(RAPO)算法。通过两阶段训练,模型在生成结构化美学解释的同时提升评分准确性。实验表明,该方法在多个基准上显著超越现有方法,尤其在有限数据和跨域场景下表现出强鲁棒性与泛化能力。论文创新性强,证据充分,代码与数据开源,叙述整体清晰,具备较高研究价值。
8.5
InfiMed-Foundation: Pioneering Advanced Multimodal Medical Models with Compute-Efficient Pre-Training and Multi-Stage Fine-Tuning 📄 Link 🤖 Kimi 💬 GPT
Zhu, Hou, Liu, Sang, Xie, Yang
本文提出了InfiMed-Foundation系列医疗多模态大模型,通过高质量数据构建、计算高效的预训练策略和三阶段监督微调方法,在多个医学多模态任务上取得了领先性能。论文创新性突出,实验设计严谨,数据质量控制严格,并开源了4B模型,具有较强的实用价值和研究意义。
8.5
CapRL: Stimulating Dense Image Caption Capabilities via Reinforcement Learning 📄 Link 🤖 Kimi 💬 GPT
Xing, Dong, Zang, Cao, Liang, Huang, Wang, Wu, Lin
本文提出了CapRL,一种将强化学习与可验证奖励(RLVR)应用于开放性图像描述生成任务的新框架。通过将描述质量定义为‘能否帮助无视觉能力的语言模型准确回答图像相关问题’,CapRL构建了一个客观、可验证的奖励信号,有效克服了传统监督微调(SFT)方法易导致模型记忆固定答案、生成多样性差的问题。实验表明,CapRL在多个基准上显著优于现有方法,生成的描述更准确、更密集,且在预训练和评估场景中均表现出色。方法创新性强,证据充分,代码与数据均已开源,具有较高的实用和推广价值。
8.5
Diagnosing and Mitigating Modality Interference in Multimodal Large Language Models 📄 Link 🤖 Kimi 💬 GPT
Cai, Li, Wen, Chen, Zhao
本文提出并系统研究了多模态大语言模型中的模态干扰问题,将其归结为跨模态能力不足的根本挑战,并设计了基于因果干预的诊断实验。作者进一步提出了一种结合启发式与对抗性扰动的数据增强策略以及一致性正则化的微调框架,在多个模型和任务上显著提升了模型在单模态与多模态任务中的鲁棒性和性能。方法创新性强,实验充分,具备良好的通用性和实践价值。
8.5
OmniGen2: Exploration to Advanced Multimodal Generation 📄 Link 🤖 Kimi 💬 GPT
Wu, Zheng, Yan, Xiao, Luo, Wang, Li, Jiang, Liu, Zhou, Liu, Xia, Li, Deng, Wang, Luo, Zhang, Lian, Wang, Wang, Huang, Liu
本文提出了OmniGen2,一种开源的多模态生成模型,通过解耦文本与图像的解码路径,在文本到图像生成、图像编辑和上下文生成等任务中表现出色。论文创新性地设计了双路径架构和Omni-RoPE位置编码,并构建了高质量的数据集与新的评测基准OmniContext。实验充分,代码、模型和数据均已开源,显著推动了开放社区在统一多模态生成方向的发展。
8.5
DentVLM: A Multimodal Vision-Language Model for Comprehensive Dental Diagnosis and Enhanced Clinical Practice 📄 Link 🤖 Kimi 💬 GPT
Meng, Hao, Dai, Feng, Liu, Feng, Wu, Gai, Zhu, Hu, Wu, Xu, Li, Xiao, Liu, Zhou, Zhu, Zhao, Xia, Fang, Sun, Wu, Liu
本文提出了DentVLM,一种面向综合牙科诊断的多模态视觉-语言模型,基于大规模双语牙科VQA数据集和两阶段训练策略,在36项牙科诊断任务中显著超越现有模型,并在真实临床研究中表现出优于初级医生、媲美资深医生的诊断能力。模型不仅提升了诊断准确性,还能在人机协作中增强医生表现、缩短诊断时间,并在家庭健康管理、医院智能诊断和多智能体交互等场景中展现广泛应用潜力。研究设计严谨,证据充分,具有重要临床转化价值。
8.5
GroupCoOp: Group-robust Fine-tuning via Group Prompt Learning 📄 Link 🤖 Kimi 💬 GPT
Kim, Oh, Kwak
本文提出了GroupCoOp,一种基于分组提示学习的视觉语言模型去偏微调方法,通过学习每组可学习的文本提示来增强模型在子群不平衡数据下的鲁棒性。方法创新性强,实验充分,在五个数据集和五种CLIP架构上均取得SOTA结果,仅需微调0.016%的参数。伪标签策略设计合理,验证严谨,整体技术路线清晰有效。
8.5
ViReSkill: Vision-Grounded Replanning with Skill Memory for LLM-Based Planning in Lifelong Robot Learning 📄 Link 🤖 Kimi 💬 GPT
Kagaya, Lakshmi, Ye, Yuan, Karlekar, Pranata, Murakami, Kinose, You
本文提出了ViReSkill框架,通过视觉接地的重规划与技能记忆机制,解决基于大语言模型(LLM)的机器人终身学习中的计划失配与执行不稳定性问题。方法创新性强,结合了视觉反馈驱动的失败诊断、基于视频片段的分层反思机制以及成功经验的零推理复用,在LIBERO、RLBench和真实机器人平台上均显著提升了任务成功率。实验设计充分,包含多基准对比、消融研究和真实场景验证,证据有力。叙述整体清晰,但部分技术细节可进一步优化表达。
8.5
Bridging the behavior-neural gap: A multimodal AI reveals the brain's geometry of emotion more accurately than human self-reports 📄 Link 🤖 Kimi 💬 GPT
Du, Lu, Huang, Sun, Zhou, Qin, He
本文提出了一种基于多模态大模型的‘认知代理’范式,通过大规模三元组相似性判断构建情感表征空间,发现多模态大语言模型(MLLM)的情感表征比人类自我报告更能准确预测大脑神经活动。研究创新性地利用AI作为高通量认知代理,突破传统行为实验的规模限制,有效弥合了‘行为-神经’鸿沟,并为情感的类别-维度之争提供了计算层面的融合解释。方法设计严谨,证据充分,结果具有重要理论和应用价值。
8.5
Mitigating Visual Hallucinations via Semantic Curriculum Preference Optimization in MLLMs 📄 Link 🤖 Kimi 💬 GPT
Li, Yan, Tang, Li, Zheng, Jin
本文提出了一种名为语义课程偏好优化(SCPO)的新框架,用于缓解多模态大语言模型中的视觉幻觉问题。方法结合了细粒度语义对比数据集、对称双向优化目标和动态更新的渐进式课程学习策略,在多个LLaVA模型上显著降低了幻觉率,最高达62.9%,同时保持了通用能力。创新性强,实验充分,叙述较为清晰,具备较高的技术通用性和推广潜力。
8.5
VTPerception-R1: Enhancing Multimodal Reasoning via Explicit Visual and Textual Perceptual Grounding 📄 Link 🤖 Kimi 💬 GPT
Ding, Chen, Feng, Xiao, Qu, Shao, Fu
本文提出了VTPerception-R1,一种通过显式视觉与文本感知对齐来增强多模态推理的统一两阶段训练框架。作者系统评估了显式与隐式、视觉与文本感知策略,发现显式感知尤其是结合文本线索时能显著提升推理性能,尤其对小模型效果更明显。基于此,VTPerception-R1在第一阶段通过感知增强的监督微调引导模型生成任务相关的描述,第二阶段引入包含视觉关键信息、文本关键信息和一致性奖励的感知感知强化学习。实验表明该方法在多个多模态推理基准上显著优于现有方法,且代码已开源。整体创新性强,证据充分,方法设计具有良好的通用性和可迁移性,叙述较为清晰。
8.5
Scaling RL to Long Videos 📄 Link 🤖 Kimi 💬 GPT
Chen, Huang, Shi, Hu, Ye, Zhu, Liu, Molchanov, Kautz, Qi, Liu, Yin, Lu, Han
本文提出了一种面向长视频理解的完整框架LongVILA-R1,结合大规模高质量推理数据集LongVideo-Reason、两阶段训练流程(CoT-SFT + 强化学习)以及专为长视频RL设计的高效训练系统MR-SP。该方法在多个视频理解基准上取得领先性能,支持高达8192帧的视频输入,并实现2.1倍训练加速。论文创新性强,实验充分,且代码与模型均已开源,具有重要实践价值。
8.5
TDBench: A Benchmark for Top-Down Image Understanding with Reliability Analysis of Vision-Language Models 📄 Link 🤖 Kimi 💬 GPT
Hou, Zhao, Xu, Fan, Jiang
本文提出了TDBench,一个面向俯视图像理解的综合性基准,填补了现有视觉语言模型(VLM)在航拍和无人机场景中评估的空白。论文设计了包含10个细粒度维度的评估体系,并引入旋转不变性评估策略RotationalEval,显著提升了测试的严谨性。通过在真实与合成数据上的大规模实验,揭示了当前VLM在俯视图像理解中的局限性,并通过四个贴近实际应用的案例研究提供了实用洞见。整体创新性强,证据充分,方法具有良好的可迁移价值,且数据与代码已开源。
8.5
MMGeoLM: Hard Negative Contrastive Learning for Fine-Grained Geometric Understanding in Large Multimodal Models 📄 Link 🤖 Kimi 💬 GPT
Sun, Bai, Yang, Zhang, Qi, Hou, Li
本文提出了一种针对大型多模态模型几何理解能力的硬负样本对比学习框架MMCLIP,通过图像和文本双路径构建细粒度的硬负样本,显著提升了模型在几何推理任务中的表现。方法创新性强,实验设计充分,开源了代码与数据集,验证了硬负样本对视觉编码器精细化对齐的有效性,在多个基准上超越现有开源模型甚至闭源模型如GPT-4o。
8.5
DC-Gen: Post-Training Diffusion Acceleration with Deeply Compressed Latent Space 📄 Link 🤖 Kimi 💬 GPT
He, Gu, Chen, Zou, Lin, Zhang, Xi, Li, Zhu, Yu, Chen, Xie, Han, Cai
本文提出了DC-Gen,一种通过深度压缩潜在空间来加速预训练扩散模型的新方法。该方法无需从头训练,而是通过轻量级的嵌入对齐和LoRA微调实现高效迁移,显著降低了高分辨率图像生成的延迟。在SANA和FLUX等主流模型上验证了其有效性,实现了高达53倍的推理加速,结合量化甚至达到138倍的端到端延迟降低。方法创新性强,实验充分,且代码已开源,具有较高的实用价值。
8.5
MetaLogic: Robustness Evaluation of Text-to-Image Models via Logically Equivalent Prompts 📄 Link 🤖 Kimi 💬 GPT
Shen, Shu, Paik, Sui
本文提出了MetaLogic,一种基于逻辑等价提示的文本到图像模型鲁棒性评估框架。该方法利用变形测试思想,通过生成语义相同但语法不同的提示对,比较对应生成图像的一致性,从而在无需真实图像的情况下检测模型的语义对齐缺陷。实验覆盖多个SOTA模型,揭示了其在逻辑一致性上的系统性脆弱性,方法创新性强,证据充分,具有良好的可扩展性和实用价值。
8.5
VideoNSA: Native Sparse Attention Scales Video Understanding 📄 Link 🤖 Kimi 💬 GPT
Song, Chai, Yang, Armand, Shan, Xu, Xie, Tu
本文提出了VideoNSA,一种面向视频理解的原生稀疏注意力机制,通过在视觉令牌上引入可学习、硬件感知的稀疏注意力,并结合压缩、选择和滑动窗口三个分支动态融合全局与局部信息。该方法在128K长上下文视频理解任务中表现出色,显著优于现有压缩和稀疏基线方法。论文实验充分,包含多维度消融分析与可扩展性研究,且代码、模型和数据均已开源,具备较强可复现性。方法设计具有通用性,对长序列多模态建模具有广泛借鉴意义。
8.5
Importance Sampling for Multi-Negative Multimodal Direct Preference Optimization 📄 Link 🤖 Kimi 💬 GPT
Li, Wang, Wu, Surana, Yu, McAuley, Shang
本文提出了MISP-DPO,首个将多负样本与语义多样性引入多模态直接偏好优化(DPO)的框架。通过CLIP嵌入与稀疏自编码器(SAE)解耦视觉差异,实现语义感知的负样本选择,并结合Plackett-Luce排序目标与重要性采样提升训练效率。在五个多模态基准上的实验表明,该方法显著优于现有方法,尤其在减少幻觉和增强视觉对齐方面表现突出。方法创新性强,实验充分,叙述整体清晰,具备良好的可迁移价值。
8.5
GeoDANO: Geometric VLM with Domain Agnostic Vision Encoder 📄 Link 🤖 Kimi 💬 GPT
Cho, Qin, Liu, Choi, Lee, Kim
本文提出了GeoDANO,一种结合领域无关视觉编码器的几何视觉-语言模型,用于解决平面几何问题。作者设计了一个新的基准来系统评估视觉编码器对几何特征(如点、线、垂直关系等)的识别能力,并发现现有通用视觉编码器在此类任务上表现不佳。为此,作者提出了GeoCLIP——一个在合成几何图-文本对上训练的CLIP变体,显著提升了几何特征识别能力;进一步引入少样本域自适应方法,使模型能有效迁移至真实世界图表风格。最终,GeoDANO在MathVerse基准上超越了专用PGPS模型和GPT-4o等通用VLM。论文创新性强,实验充分,方法具有良好的可迁移潜力,叙述整体清晰。
8.5
MultiVox: A Benchmark for Evaluating Voice Assistants for Multimodal Interactions 📄 Link 🤖 Kimi 💬 GPT
Selvakumar, Seth, Anand, Tyagi, Kumar, Ghosh, Manocha
本文提出了MultiVox,首个面向多模态语音助手的基准测试,旨在评估模型在融合语音(尤其是副语言特征如语调、情绪、背景音)与视觉信息时的上下文理解能力。该基准包含1000个由专业配音演员录制的真实语音对话,并引入‘混淆对’设计以防止模型依赖单模态先验。实验评估了9个前沿模型,发现尽管人类表现优异,现有模型在语音信号的非文本特征理解上仍存在严重瓶颈。论文方法设计严谨,数据质量高,且计划开源,对推动真正多模态语音助手的发展具有重要意义。
8.5
StableToken: A Noise-Robust Semantic Speech Tokenizer for Resilient SpeechLLMs 📄 Link 🤖 Kimi 💬 GPT
Song, Zhang, Wu, Liu, Jia, Wang, Zhou
本文提出了StableToken,一种面向语音大模型的噪声鲁棒语义语音分词器,针对现有分词器在微小噪声下输出不稳定的缺陷,创新性地设计了多分支投票量化架构与共识训练策略。实验表明,该方法在多种噪声条件下显著提升了分词稳定性(UED降低超60%),并在ASR、SER、TTS等下游任务中带来一致的性能增益。方法设计严谨,证据充分,具备良好的实用价值和推广潜力。
8.5
MinerU2.5: A Decoupled Vision-Language Model for Efficient High-Resolution Document Parsing 📄 Link 🤖 Kimi 💬 GPT
Niu, Liu, Gu, Wang, Ouyang, Zhao, Chu, He, Wu, Zhang, Jin, Liang, Zhang, Zhang, Qu, Ren, Sun, Zheng, Ma, Tang, Niu, Miao, Dong, Qian, Zhang, Chen, Wang, Zhao, Wei, Li, Wang, Xu, Cao, Chen, Wu, Gu, Lu, Wang, Lin, Shen, Zhou, Zhang, Zang, Dong, Wang, Zhang, Bai, Chu, Li, Wu, Wu, Li, Wang, Tu, Xu, Chen, Qiao, Zhou, Lin, Zhang, He
本文提出了MinerU2.5,一种解耦的视觉-语言模型,用于高效高分辨率文档解析。该方法采用粗到细的两阶段策略,将全局布局分析与局部内容识别分离,在保持1.2B小参数量的同时,在多个基准上实现了最先进的性能。创新性强,实验充分,且代码与模型均已开源,具备良好的实用性和可复现性。
8.5
Beyond Isolated Facts: Synthesizing Narrative and Grounded Supervision for VideoQA 📄 Link 🤖 Kimi 💬 GPT
Liang, Yue, Wang, Wang, Yin, Zhang, Zhao
本文提出了一种超越孤立事实的视频问答(VideoQA)训练新范式,通过问题驱动的改写(QBP)和问题驱动的描述生成(QBC)合成具有叙事连贯性和视觉可解释性的监督信号。在STAR和NExT-QA等多个基准上取得了显著性能提升,并实现了新的SOTA结果。方法创新性强,实验充分,且展现出良好的泛化能力和训练效率提升,是一篇高质量的研究工作。
8.5
Mitigating Multimodal Hallucinations via Gradient-based Self-Reflection 📄 Link 🤖 Kimi 💬 GPT
Wang, Shen, Chang, Nguyen, Li, Alvarez
本文提出了一种基于梯度的自省方法GACD,用于缓解多模态大语言模型中的幻觉问题。该方法通过一阶泰勒展开估计token级影响,识别并抑制文本-视觉偏差和共现偏差,在无需微调或辅助模型的前提下显著提升了视觉接地性能。方法创新性强,实验充分,跨模型和跨任务验证表明其有效性与鲁棒性,叙述整体清晰但部分技术细节可进一步优化表达。
8.5
VisualOverload: Probing Visual Understanding of VLMs in Really Dense Scenes 📄 Link 🤖 Kimi 💬 GPT
Gavrikov, Lin, Mirza, Jahagirdar, Huzaifa, Doveh, Yeung-Levy, Glass, Kuehne
本文提出了Visual Overload,一个专注于评估视觉语言模型(VLMs)在高度密集、高分辨率场景中视觉理解能力的新基准。该基准包含2720个手工标注的问答对,基于公共领域艺术画作,涵盖六类基础视觉任务。实验评估了37个前沿模型,发现即使最强模型在最难子集上准确率也仅为19.6%,暴露出当前VLM在计数、OCR和逻辑一致性等方面的系统性缺陷。论文设计严谨,数据新颖,实证充分,揭示了现有模型在细粒度感知上的严重不足,具有重要警示与推动意义。
8.4
Multimodal Large Language Models Meet Multimodal Emotion Recognition and Reasoning: A Survey 📄 Link 🤖 Kimi 💬 GPT
Shou, Meng, Ai, Li
本文是一篇关于多模态大语言模型(MLLMs)在多模态情感识别与推理中应用的综述性论文,系统梳理了该领域的最新进展,提出了新的分类体系,涵盖了模型架构、数据集、评测基准,并提供了丰富的资源链接。作为该交叉领域的首篇全面综述,论文结构清晰、内容详实,具有较高的参考价值。
8.4
论文详情
论文详情